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如 今 ， 人 们 面临 的 大 多 数 任务 都 可 以 通过 编写 计算 机 软件 来 完成 。Python 是 一 





种 解释 型 、 面 向 对 象 、 动 态 数据 类 型 
能 够 解决 现实 生活 中 的 很 多 任务 。 

本 书 是 一 本 面向 实践 的 Python 编程 实 月 
语言 的 基础 知识 ， 而 且 还 通过 :1 



























































第 一 部 分 介绍 了 基本 的 Python 



































高 级 程序 设计 语言 。 通 过 Python 编程 ， 我 们 
































编程 概念 ， 























写 Python 程序 ， 可 以 让 计算 机 自 
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指南 。 本 书 的 目的 , 不 仅 是 介绍 Python 











页 目 实 践 教会 读者 如 何 应 用 这 些 知识 和 技能 。 本 书 的 











第 二 部 分 介绍 了 一 些 不 同 的 任务 , 通过 编 








动 完成 它们 。 第 二 部 分 的 每 一 章 都 有 一 些 项 目 程序 ， 


























供 读者 学 习 。 每 章 的 末尾 还 提 

















的 知识 。 附 录 部 分 提供 了 所 有 习题 的 解答 。 




















者 。 通 过 阅读 本 书 ， 读 者 将 能 利 





编程 的 快乐 。 


























内 了 一 些 习 题 和 深入 的 实践 项 目 ， 帮 助 读 者 巩固 所 学 














本 书 适 合 任何 想 要 通过 Python 学 习 编 程 的 读者 , 尤其 适合 缺乏 编程 基础 的 初学 
j 最 强大 的 编程 语言 和 工具 ， 并 且 将 体会 到 Python 
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译 者 序 


会 编程 的 人 不 一 样 





这 是 
序 员 学 编程 的 时 代 
学 习 的 人 工 智能 各 
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机 器 代替 人 的 时 代 ， 也 是 人 控 
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。 这 


法 的 时 代 ， 也 是 编 


























序 AlphaGo 以 4:1 击败 了 李 世 石 九段 。 
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每 一 个 不 会 























ij 程 的 年 轻 人 都 应 该 认真 考虑 : 是 不 是 应 该 3 
学 习 一 门 新 的 语言 ， 总 是 让 人 感到 长 缩 。 这 让 我 想起 大 学 时 





由 机 器 的 时 代 。 这 是 程序 员 的 时 代 ， 也 是 非 
程 语言 的 时 代 。 





翻译 本 书 期 间 ， 深 




















于 始 学 习 编 程 ? 





英语 老师 教 的 学 习 














方法 : 听 说 领先 ， 读 写 跟 上 。 确 实 ， 学 语言 效果 最 好 的 方法 就 


循 了 这 样 的 宗旨 。 
单 介 绍 Python 编程 i 
Python 来 完成 一 些 
作 效 率 ， 避 人 免 手工 操 














妊 言 的 基本 知识 后 ， 就 开始 用 一 个 接 
常 工作 ， 利 用 计算 机 这 个 强大 的 工 








本 书 是 面 对 编程 初学 者 的 书 ， 假 定 读者 没有 任何 编 














是 (24 2 本 书 就 遵 
程 知 识 。 在 简 
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的 例子 ， 教 我 人 


hh/ 





] 如 何 用 











[ 作 时 间 ， 提 高 工 
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乍 容易 带 来 的 错误 。 








真正 的 程序 员 ， 


一 个 程序 ， 会 给 老婆 发 加 班 短 信 ， 会 在 宿 醉 不 醒 时 给 自己 请 
复 客 户 的 数据 库 ， 还 可 以 一 键 远程 煮 咖 
开发 了 一 个 程序 ， 








习 了 














若是 已 经 掌握 了 


门 编程 课 后 ，] 


























其 他 编 











编程 来 解决 自己 和 别人 的 问题 。 俄 罗斯 有 一 个 程序 员 编 写 了 

















假 ， 








会 自动 根据 邮件 恢 


























自动 控制 
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JAD 























编程 语言 ， 都 会 提供 








程 i 


五 过 
IE 百 ， 




















啡 。 加 拿 大 一 名 零 编程 基础 的 农场 主 ， 在 学 
拖拉 机 ， 配 合 联合 收 
学 习 Python， 本 书 也 是 不 错 的 参考 。 每 一 种 
一 种 独特 的 视角 ， 让 你 对 编程 有 新 的 认识 。 











割 机 收割 谷物 。 

















我 非常 喜欢 Python 











zx za 





没有 花 括 号 和 分 号 ， 
本 书 并 没有 深入 介绍 
容 ， 请 参考 其 他 书籍 
在 本 书 的 翻译 过 

















程 / 





面向 对 象 包 
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这 很 “ 清 











办 ， 付 











果 想 





[函数 式 编程 范式 ， 如 果 想 了 解 





程 ， 我 自 











ek 也 在 项 

















目 中 使 用 Python 编程 ， 






































因此 ， 郑 重 向 大 家 和 # 











着。 翻译 


的 错误 ， 请 不 音 指 出 。 





合 奥 卡 姆 剃刀 原理 : 如 无 必要 ， 勿 增 实体 。 


Python 这 方面 的 内 





从 中 得 到 许多 启发 。 


王 海 脑 
2016 年 春 于 上 海 


了 中 


前 




















“你 在 2 个 小 时 里 完成 的 事 ， 我 们 3 个 人 要 做 两 天 。”21 
世纪 早期 , 我 的 大 学 室友 在 一 个 电子 产品 零售 商店 工作 。 商 店 
偶尔 会 收 到 一 份 电子 表格 , 其 中 包含 竞争 对 手 的 数 千 种 产品 的 
价格 。 由 3 个 员工 组 成 的 团队 , 会 将 这 个 电子 表格 打印 在 一 等 
厚 厚 的 纸 上 , 然后 3 个 人 分 一 下 。 针 对 每 个 产品 价格 ， 他 们 会 
查看 自己 商店 的 价格 ， 并 记录 竞争 对 手 价格 较 低 的 所 有 产品 。 
这 通常 会 花 几 天 的 时 间 。 

“如 果 你 有 打印 件 的 原始 文件 ， 我 会 写 一 个 程序 来 做 这 件 事 。” 我 的 室友 告诉 他 
们 ， 当 时 他 看 到 他 们 化 在 地 板 上 ， 周 围 都 是 散落 堆 难 的 纸张 。 

几 个 小 时 后 ， 他 写 了 一 个 简短 的 程序 ， 从 文件 读 取 竞 争 对 手 的 价格 ， 在 商店 的 
数据 库 中 找到 该 产品 ， 并 记录 竞争 对 手 是 否 更 便宜 。 他 当时 还 是 编程 新 手 ， 花 了 许 
多 时 间 在 一 本 编程 书籍 中 查看 文档 。 实 际 上 程序 只 花 了 几 秒 钟 运行 。 我 的 室友 和 他 
的 同事 们 那天 享受 了 超 长 的 午餐 。 

这 就 是 计算 机 编程 的 威力 。 计算 机 就 像 瑞士 军刀 , 可 以 用 来 完成 数 不 清 的 任务 。 
许多 人 花 上 数 小 时 点 击 鼠 标 和 敲打 键盘 ， 执 行 重复 的 任务 ， 却 没有 意识 到 ， 如 果 他 
们 给 机 器 正确 的 指令 ， 机 器 就 能 在 几 秒 钟 内 完成 他 们 的 工作 。 
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本 书 的 该 者 对 象 


软件 是 我 们 今天 使 用 的 许多 工具 的 核心 : 几乎 每 个 人 都 使 用 社交 网 络 来 进行 交 
流 ， 许 多 人 的 手机 中 都 有 连接 因特网 的 计算 机 ， 大 多 数 办 公 室 工作 都 涉及 操作 计算 
机 来 完成 工作 。 因 此 ， 对 编程 人 才 的 需求 暴涨 。 无 数 的 图 书 、 交 互 式 网 络 教程 和 开 
发 者 新 兵 训练 营 , 承诺 将 有 雄心 壮志 的 初学 者 变 成 软件 工程 师 , 获得 6 位 数 的 薪水 。 


























































































































本 书 不 是 针对 这 些 人 的 。 






























































它 是 针对 所 有 其 他 的 人 。 























































































































就 它 本 身 来 说 ， 这 本 书 不 会 让 你 变 成 一 个 职业 软件 开发 者 ， 束 像 几 节 吉他 课程 
不 会 让 你 变 成 一 名 摇 深 巨星 。 但 如 果 你 是 办 公 室 职员 、 管 理 者 、 学 术 研 究 者 ， 或 使 
计算 机 来 工作 或 娱乐 的 任何 人 ， 你 将 学 到 编程 的 基本 知识 ， 这 样 就 能 将 下 面 这 样 
一 些 简单 的 任务 自动 化 : 

。 移动 并 重 命名 几 和 于 个 文件 ， 将 它们 分 类 ， 放 入 文件 夹 ; 
。 填写 在 线 表 单 ， 不 需要 打字 ; 

。 在 网 站 更 新 时 ， 从 网 站 下 载 文 件 或 复制 文本 ; 

。 让 计算 机 向 客户 发 出 短信 通知 ; 

。 更 新 或 格式 化 Excel 电子 表格 ; 

。 检查 电子 邮件 并 发 出 预先 写 好 的 回复 。 























对 人 来 说 ， 这 些 任务 简单 ， 
的 软件 可 以 完成 。 有 


编码 规范 


本 书 没 有 设计 成 参考 手册 ， 


















































但 很 花 时 间 。 它 们 通常 
点 编程 知识 ， 就 可 以 让 计 介 














它 是 初学 者 指 














如 ， 有 些 程序 使 用 
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的 目的 是 让 人 们 编写 











杂 的 编程 概念 〈 如 
为 它们 增加 了 复杂 


日 
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面向 对 象 编程 、 列 












































但 本 书 主要 考虑 的 


什么 是 编程 





是 用 最 少 的 工作 量 














局 变量 )， 但 这 是 一 和 
抛弃 的 代码 ， 所 以 没有 太 多 时 间 来 关注 
表 推 导 和 生成 器 )， 在 本 书 中 也 没有 介 
编程 老手 可 能 会 指出 ， 本 书 中 的 代码 可 以 修改 得 
量 得 到 
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折 中 








出 ， 


能 工作 








县 1 





， 常 常 看 到 程序 员 在 内 光 的 屏幕 | 











在 电视 剧 和 


已 不 / 


和 0， 但 现代 编程 没有 这 人 么 # 









































秘 。 编 程 只 


4 是 输入 指 




















让 代码 更 简单 ， 











的 程序 。 











能 运算 一 些 数字 , 修改 文本 ， 
用 








所 有 程序 都 使 
攻 式 来 表示 ; 
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“如 果 这 个 条 

“按照 指 

“一 直 做 这 个 ， 

J 
为 源 代码 ， 是 



































了 咱 


这 个 ， 然 后 做 居 
件 为 真 ， 执 行 这 个 动作 ， 


定 次 数 执行 这 个 


Python 编程 语 








基本 指令 
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动作 。” 
直到 条 件 为 真 。” 























企 文件 中 


查找 信息 ， 





或 通过 























作为 构件 块 。 下 面 














很 琐碎 、 很 特殊 ， 没 有 臣 
机 为 你 完成 这 些 任 务 。 








南 。 编 码 风格 有 时 候 违 反 最 佳 实践 ( 例 


以 便 学 习 。 本 书 





i 
令 让 计算 机 来 执行 。 这 些 指令 
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风格 和 优雅 。 复 


站 绍 ， 因 








更 有 效率 ， 
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5=| 
































是 一 些 常 | 








否则 ， 














这 些 构件 块 ， 实 现 更 


复杂 的 决定 。 例 如 ， 
个 简单 程序 。 从 头 开 始 ，Python 软件 执 





言 编写 














引 的 


执行 那个 动作 。” 














| 的 指令 


， 用 


止 K 乡 


自然 语言 的 





4 程 指令 ， 称 





有 





这 























行 每 行 代码 (有些 代码 只 有 在 特定 条 件 为 真 时 执行 ， 否则 Python 会 执行 另外 一 些 代 
码 )， 直 到 到 达 底 部 。 


passwordFile = open('SecretPasswordFile.txt') 
secretPassword = passwordFile.read() 
print('Enter your password.') 
typedPassword = input() 
if typedPassword == secretPassword: 

print('Access granted') 

if typedPassword == '12345': 

print('That password is one that an idiot puts on their luggage.') 











@Qe@e 


@oeooec 


else: 
print('Access denied') 


你 可 能 对 编程 一 无 所 知 , 但 读 了 上 面 的 代码 , 也 许 就 能 够 合理 地 猜测 它 做 的 事 。 
首先 ， 打 开 了 文件 SecretPasswordFile.txt@， 读 取 了 其 中 的 密码 @。 然后， 提示 用 户 
(通过 键盘 ) 输入 一 个 密码 @@。 比 较 这 两 个 密码 @， 如 果 它 们 一 样 ， 程 序 就 在 屏幕 上 
打印 Access granted@。 接 下 来 ， 程 序 检查 密码 是 否 为 12345@， 提 示 说 这 可 能 并 不 
是 最 好 的 密码 @。 如 果 密 码 不 一 样 ， 程 序 就 在 屏幕 上 打印 Access denied@。 
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什么 是 Python 

Python 指 的 是 Python 编程 语言 (包括 语法 规则 ， 用 于 编写 被 认为 是 有 效 的 
Python 代码 )， 以 及 Python 解释 器 软件 ， 它 读 取 源 代码 (用 python 语言 编写 )， 并 
执行 其 中 的 指令 。Python 解释 器 可 以 从 http://python.org/ 免 费 下 载 ， 有 针对 Linux、 
OS X 和 Windows 的 版 本 。 

Python 的 名 字 来 自 于 英国 超 现实 主义 喜剧 团体 ， 而 不 是 来 自 于 昵 。Python 程序 
员 被 亲切 地 称 为 Pythonistas。Monty Python 和 与 蛇 相 关 的 引用 常常 出 现在 Python 的 
指南 和 文档 中 。 



































































































































程序 员 不 需要 知道 太 多 数学 
我 听 到 的 关于 学 习 编 程 的 最 常见 的 顾虑 ， 就 是 人 们 认为 这 需要 很 多 数学 知识 。 
其 实 ， 大 多 数 编程 需要 的 数学 知识 不 超过 基本 算数 。 实 际 上 ， 善 于 编程 与 善于 解决 
数 独 问题 没有 太 大 差别 。 
要 解决 数 独 问题 ， 数 字 1 到 9 必须 填 入 9x9 的 棋盘 上 每 一 行 、 每 一 列 ， 以 及 每 
个 3x3 的 内 部 方块 。 通 过 推导 和 起 始 数字 的 逻辑 , 你 会 找到 一 个 答案 。 例 如 , 在 图 1 
的 数 独 问题 中 ， 既 然 5 出 现在 了 左上 角 ， 它 就 不 能 出 现在 项 行 、 最 左 列 ， 或 左上 角 
3x3 方块 中 的 其 他 位 置 。 每 次 解决 一 行 、 一 列 或 一 个 方块 ， 将 为 剩 下 的 部 分 提供 更 
多 的 数字 线索 。 
仅仅 因为 数 独 使 用 了 数字 ， 并 不 意味 着 必须 精通 数学 才能 求 出 答案 。 编 程 也 是 
这 样 。 就 像 解 决 数 独 问 题 一样 ， 编 程 需要 将 一 个 问题 分 解 为 单个 的 、 详 细 的 步骤 。 
类 似 地 ， 在 调试 程序 时 《〈 即 寻找 和 修复 错误 )， 你 会 耐心 地 观察 程序 在 做 什么 ， 找 















































































































































































































































了 中 


前 3 





出 缺陷 的 原因 


。 像 所 有 技能 一 样 ， 








SI 
6| | 85 


编程 越 多 ， 你 就 











图 1 一 个 新 的 数 独 问题 ( 左边) 及 其 答案 (右边 )， 尽 管 使 用 了 数字 ， 
数 独 并 不 需要 太 多 数学 知识 
编程 是 创造 性 活动 
编程 是 一 项 创造 性 任务 ， 有 点 类 似 于 用 乐高 积木 构建 一 个 城堡 。 你 从 基本 的 想 


本 书 


A 


间 

















法 开始 ， 和 希望 城堡 看 起 来 像 怎样 ， 并 盘点 可 
建 程序 后 ， 可 以 让 代码 变 得 更 美观 ， 就 像 对 你 的 城堡 那样 
编程 与 其 他 创造 性 活动 的 不 同 之 处 在 于 ， 在 编 







































































的 积木 。 然 














后 开始 构建 。 在 你 完成 构 


你 需要 的 所 有 原材料 都 在 





程 时 ， 


























计算 机 ， 




















动 仍然 很 有 乐趣 。 


介 


了 咱 


本 书 的 第 
务 ， 你 可 以 让 计生 












































一 部 分 介绍 了 基本 Python 编程 概念 ， 第 二 
机 自动 完成 它们 。 第 二 部 分 的 每 一 章 都 有 





， 你 不 需要 购买 额外 的 了 画布、 颜料 、 胶 片 、 纱 线 、 乐 高 积木 或 电子 器 件 。 
在 程序 写 好 后 ， 很 容易 将 它 在 线 共享 给 整个 世界 。 尽 管 在 编程 时 你 会 犯错 ， 这 项 活 





部 分 介绍 了 一 些 不 同 的 任 








习 。 下 面 简 单 介绍 一 下 每 章 的 内 容 。 











第 一 部 分 : Python 编程 基础 


66 生生 































































































些 项 目 程序 ， 供 你 学 
























































第 1 章 : Python 基础 ”介绍 了 表达 式 、Python 指令 的 最 基本 类 型 ， 以 及 如 何 
使 用 Python 交互 式 环 境 来 党 试 运行 代码 。 

“第 2 章 : 控制 流 ” 解 释 了 如 何 让 程序 决定 执行 哪些 指令 ， 以 便 代 码 能 够 智能 
地 响应 不 同 的 情况 。 

“第 3 章 : 函数 ”介绍 了 如 何 定义 自己 的 函数 ， 以 便 将 代码 组 织 成 可 管理 的 部 分 。 

“第 4 章 : 列表 ”介绍 了 列表 数据 类 型 ， 解 释 了 如 何 组 织 数 据 。 

“第 5 章 : 字典 和 结构 化 数据 ”介绍 了 字典 数据 类 型 ， 展 示 了 更 强大 的 数据 组 
织 方法 。 

















“第 6 章 : 字符 串 操 作 ” 介 绍 了 处 理 文本 数据 《在 Python 中 称 为 字符 串 )。 











第 二 部 分 : 自动 化 任务 








“第 7 章 : 模式 匹配 与 正则 表达 式 ” 介 绍 了 Python 如 何 用 正则 表达 式 处 理 


























串 ， 以 及 查找 文本 模式 。 














Pr 万 科 


字符 


“第 8 章 : 读 写 文件 ”解释 了 程序 如 何 读 取 文本 文件 的 内 容 ， 并 将 信息 保存 到 

























































































硬盘 的 文件 中 。 

“第 9 章 : 组 织 文件 ”展示 了 Python 如 何 用 比 手工 操作 快 得 多 的 速度 ， 复 制 、 
移动 、 重 命名 和 删除 大 量 的 文件 ， 也 解释 了 压缩 和 解压 缩 文件 。 

“第 10 章 : 调试 ”展示 了 如 何 使 用 Python 的 缺陷 查找 和 缺陷 修复 工具 。 

“第 11 章 : 从 Web 抓 取信 息 ” 展 示 了 如 何 编程 来 自动 下 载 网 页 ， 解析 它们 ， 获 
取信 息 。 这 称 为 从 Web 抓 取信 息 。 
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阅读 它们 。 如 果 你 必须 分 析 成 百 上 千 的 文档 ， 这 是 很 有 帮助 的 。 














“第 13 章 : 处 理 PDF 和 Word 文档 ”介绍 了 编程 读 取 Word 和 PDF 文档 。 
“第 14 章 : 处 理 CSV 文件 和 JSON 数据 ”解释 了 如 何 编程 操作 CSV 和 JSON 文件 。 





















































有 12 章 : 处 理 Excel 电子 表格 ”介绍 了 编程 处 理 Excel 电子 表格 ， 这 村 
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动 非 Python 程序 。 
“第 16 章 : 发 送 电子 邮件 和 短信 ”解释 了 如 何 编程 来 发 送 电子 邮件 和 短信 。 









































第 15 章 : 保持 时 间 、 计 划 任 务 和 启动 程序 ”解释 了 Python 程序 如 何 处 型 
和 日 期 , 如 何 安排 计算 机 在 特定 时 间 执 行 任务 。 这 一 章 也 展示 了 Python 程序 如 何 启 











“第 17 章 : 操作 图 像 ” 解 释 了 如 何 编程 来 操作 JPG 或 PNG 这 样 的 图 像 。 












































“第 18 章 : 用 GUI 自动 化 控制 键盘 和 鼠标 ”解释 了 如 何 编程 控制 鼠标 和 键盘 ， 























自动 化 鼠标 点 击 和 击 键 。 





下 载 和 安装 Python 
可 以 从 http://python.org/downloads/ 免 费 下 载 针 对 Windows、OS X 和 Ubuntu 的 
Python 版 本 。 如 果 你 从 该 网 站 的 下 载 页 面 下 载 了 最 新 的 版 本 ， 本 书 中 的 所 有 程序 应 
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EE 时间 











该 都 能 工作 。 

















请 确保 下 载 Python 3 的 版 本 (诸如 3.4.0 )。 本 书 中 的 程序 将 运行 在 Python 3 上 ， 


有 一 部 分 程序 在 Python 2 上 也 许 不 能 正常 运行 。 





你 需要 在 下 载 页 面 上 找到 针对 64 位 或 32 位 计算 机 以 及 特定 操作 系统 的 Python 
安装 程序 ， 所 以 先 要 弄 清 楚 你 需要 哪个 安装 程序 。 如 果 你 的 计算 机 是 2007 年 或 以 



























































后 购买 的 ， 很 有 可 能 是 64 位 的 系统 。 和 否则， 可 能 是 32 位 的 系统 ， 但 下 
































是 确 
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的 方法 : 
。 在 Windows 上 。 选 择 StarthControlPanelySystem。 检 查 系 统 类 型 是 64 位 或 
32 位 。 
。 在 OS X 上 ， 进 入 Apple 菜单 ， 选 择 About This Mac》MoreInfoySystemReport》 
Hardware， 然 后 查看 Processor Name 字段 。 如 果 是 Intel Core Solo 或 Intel Core Duo， 
机 器 是 32 位 的 。 如 果 是 其 他 (包括 Intel Core 2 Duo)， 机 器 是 64 位 的 。 
。 在 Ubuntu Linux 上 ， 打 开 终 端 窗口 ， 运 行 命令 uname -m。 结 果 是 1686 表示 是 
32 位 ，x86_64 表示 是 64 位 。 
在 Windows 上 ， 下 载 Python 安装 程序 〈 文 件 扩 展 名 是 .msi)， 并 双击 它 。 按 照 
安装 程序 显示 在 屏幕 上 的 指令 来 安装 Python， 步 骤 如 下 。 
1. 选择 Install for All Users， 然 后 点 击 Next。 
2. 通过 点 击 Next 安装 到 Ci\Python34 文件 夹 。 
3. 再 次 点 击 Next， 跳 过 定制 Python 的 部 分 。 
在 OS X 上， 下 载 适 合 你 的 OS X 版 本 的 .dmg 文件 ， 并 双击 它 。 按 照 安 装 程序 
显示 在 屏幕 上 的 指令 来 安装 Python， 步 骤 如 下 。 
1. 当 DMG 包 在 一 个 新 窗口 中 打开 时 ， 双 击 Python.mpkg 文件 。 你 可 能 必须 输 
入 管理 员 口 令 。 
2. 点 击 Continue， 跳 过 欢迎 部 分 ， 并 点 击 Agree， 接 受 许 可 证 。 
3. 选择 HD Macintosh (或 者 你 的 硬盘 的 名 字 )， 并 点 击 Install。 
如 果 使 用 的 是 Ubuntu， 可 以 从 终端 窗口 安装 Python， 步 又 如 下 。 
1. 打开 终端 窗口 。 
2. 输入 sudo apt-get install python3 。 
3. 输入 sudo apt-get install idle3 。 
4. 输入 sudo apt-get install python3-pip。 
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启动 IDLE 

















Python 解释 器 是 运行 Python 程序 的 软件 ， 而 交互 式 开发 环境 (IDLE) 是 输入 
程序 的 地 方 ， 就 像 一 个 字 处 理 软件 。 现 在 让 我 们 启动 IDLE。 

。 在 Windows7 或 更 新 的 版 本 上 ， 点 击 屏幕 左下 角 的 开始 图 标 ， 在 搜索 框 中 输入 
IDLE， 并 选择 IDLE (Python GUI)。 

。 Windows XP 上 ， 点 击 开 始 按钮 ， 然 后 选择 ProgramshPython 3.4*IDLE (Python 
GUI) 。 

。 在 OSX 上， 打开 Finder 窗口 ， 点 击 Applications， 点 击 Python 3.4， 然 后 点 击 
IDLE 的 图 标 。 

。 在 Ubuntu 上 ， 选 择 ApplicationsPAccessories>Terminal， 然 后 输入 idle3 〈 也 许 你 也 
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性 
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可 以 点 击 屏 幕 顶部 的 Applications， 选 择 Programming， 然 后 点 击 IDLE 3)。 

















































































































交互 式 环境 

无 论 你 使 用 什么 操作 系统 ， 初 次 出 现 的 IDLE 窗口 应 该 基本 上 是 空 的 ， 除 了 类 
似 下 面 这 样 的 文本 : 
Python 3.4.0 (v3.4.0:04f714765c13, Mar 16 2014, 19:25:23) [MSC v.1600 64 
bit (AMD64)] on win32Type "copyright", "credits" or "license()" for more 
information. 

这 个 窗口 称 为 交互 式 环境 。 这 是 让 你 向 计算 机 输入 指令 的 程序 ， 很 像 OS X 上 
的 终端 窗口 ， 或 Windows 上 的 命令 行 提示 符 。Python 的 交互 式 环境 让 你 输入 指令 ， 供 
Python 解释 器 软件 来 执行 。 计 算 机 读 入 你 输入 的 指令 ， 并 立即 执行 它们 。 




















例如 ， 在 交互 式 环境 的 >>> 提 示 符 后 输入 以 下 指令 : 
>>> print('Hello world!') 


在 输入 该 行 并 按 下 回 车 键 后 ， 交 互 式 环境 将 显示 以 下 内 容 作 为 啊 应 : 


>>> print('Hello world!') 
Hello world! 


























如 何 寻 求 帮助 


独自 解决 编程 问题 可 能 比 你 想 的 要 容易 。 如 果 你 不 相信 ， 就 让 我 们 故意 产生 
个 错误 : 在 交互 式 环境 中 输入 42 + 3。 现 在 你 不 需要 知道 这 条 指令 是 什么 意思 ， 但 
结果 看 起 来 应 该 像 这 样 : 


>>> '42' + 3 
@ Traceback (most recent call last): 
File "<pyshell#0>", line 1, in <module> 
'42' + 3 
@ TypeError: Can't convert 'int' object to str implicitly 
>>> 






































































































































这 里 出 现 了 错误 信息 @， 因 为 Python 不 理解 你 的 指令 。 错 误 信 息 的 traceback 部 
分 @ 显 示 了 Python 遇 到 困难 的 特定 指令 和 行 号 。 如 果 你 不 知道 怎样 处 理 特定 的 错误 
信息 ， 就 在 线 查 找 那 条 错误 信息 。 在 你 喜欢 的 搜索 引 警 上 输入 “TypeError: Can't convert 
'int' object to str implicitly”( 包 括 引号 )， 你 就 会 看 到 许多 的 链接 ， 解 释 这 条 错误 信 
息 的 含义 ， 以 及 什么 原因 导致 这 条 错误 ， 如 图 2 所 示 。 

你 常常 会 发 现 ， 别 人 也 过 到 了 同样 的 问题 ， 而 其 他 乐于 助人 的 人 已 经 回答 了 这 
个 问题 。 没 有 人 知道 编程 的 所 有 方面 ， 所 以 所 有 软件 开发 者 的 工作 ， 都 是 每 天 在 寻 
找 技术 问题 的 答案 。 






































































































































亚 
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Go gle "TypeError: Can't convert 'int object to str implicitly” 


Web Shopping Images 


About 2,100 results (0.31 seco' 


News Videos More~ Search tools 


nds) 


python - TypeError Can't convert 'int' object to str implicitly ...@ © 
stackoverflow.com/.../typeerror-cant-convert-int-object-to-str-implicitly ~ 
Nov 30, 2012 - You cannot concatenate a string with an int. You 


would need to convert your int 


to string using str function, or use 


formatting to format your output. 


TypeError: Can't convert 'int' object to str implicitly error python@ © 
stackoverflow.com/.../typeerror-cant-convert-int-object-to-str-implicitly-... ~ 
Sep 22, 2013 - As the error message say, you can't add int 

object to str object. >>> 'str + 2 Traceback (most recent call 

last): File "<stdin>", line 1, in <module> ... 


Can't convert 'int' object to str 
stackoverflow.com/.../cant-convert-int- 


implicitly: Python 3+ - Stack ..@ 0 
object-to-str-implicity-python-3 ~ 


Nov 5, 2013 - Traceback (most recent call last): File "main.py 


line 29, in alltrees = distinct(x+ 


1) TypeError: Can't convert 'int 


object to str implicitly. python int ... 


python-forum.org » View topic 





- Can't convert 'int' object to str ...@ 0 


图 2 错误 信息 的 Google 搜索 结果 可 能 非常 有 用 


聪明 地 提出 编程 问题 


如 果 不 能 在 线 查 找到 答案 ， 请 尝试 在 Stack Overlow (http:/stackoverflow.com/) 或 
“learnprogramming”subreddit (http://reddit.com/r/learnprogramming/) 这 样 的 论坛 上 提 
问 。 但 要 记 住 ， 用 聪明 的 方式 提出 编程 问题 ， 这 有 助 于 别人 来 帮助 你 。 确 保 阅读 这 
些 网 站 的 FAQ (常见 问题 )， 了 解 正确 的 提问 方式 。 

在 提出 编程 问题 时 ， 要 记 住 以 下 几 点 。 


中 


























。 说 明 你 打算 做 什么 , 而 不 只 是 

















你 做 了 什么 。 这 让 帮助 你 的 人 知道 你 是 否 走 错 了 路 。 





。 明确 指出 发 生 错误 的 地 方 。 它 是 在 程序 每 次 启动 时 发 生 , 还 是 在 你 做 了 某 些 动 


作 之 后 ? 





。 将 完整 的 错误 信息 和 你 的 代码 复制 粘贴 到 http://pastebin.com/ 或 http://gist. 


github.com/。 
这 些 网 站 让 你 很 容易 在 网 上 








与 他 人 共享 大 量 的 代码 ， 而 不 会 丢失 任何 文本 格 


式 。 然 后 你 可 以 将 贴 出 的 代码 的 URL 放 在 电子 邮件 或 论坛 帖子 中 。 例 如 ， 这 


里 是 我 贴 出 的 一 些 代码 片段 : 
com/ asweigart/6912168/。 


http:/pastebin.com/SzP2DbFx/ 和 https://gist.github. 





。 解释 你 为 了 解决 这 个 问题 已 经 党 试 了 哪些 方法 。 这 会 告诉 别人 你 已 经 做 了 一 些 











工作 来 弄 清楚 状况 。 
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。 列 出 你 使 用 的 Python 版 本 〈Python 2 解释 器 和 Python3 解释 器 之 间 有 一 些 
的 区 别 )。 而 且 ， 要 说 明 你 使 用 的 操作 系统 和 版 本 。 
。 如 果 错 误 在 你 更 改 了 代码 之 后 出 现 ， 准 确 说 明 你 改 了 什么 。 
。 说 明 你 是 否 在 每 次 运行 该 程序 时 都 能 重 现 该 错误 , 或 者 它 只 是 在 特定 的 操作 执 
行 之 后 才 出 现 。 如 果 是 这 样 ， 解 释 是 哪些 操作 。 
也 要 遵守 良好 的 在 线 礼 节 。 例 如 ， 不 要 全 用 大 写 提 问 ， 或 者 对 试图 帮助 你 的 人 
提出 无 理 的 要 求 。 







































































小 结 



































对 于 大 多 数 人 ， 他 们 的 计算 机 只 是 设备 ， 而 不 是 工具 。 但 通过 学 习 如 何 编 程 ， 
你 就 能 利用 现代 社会 中 最 强大 的 工具 ， 并 且 你 会 一 直 感 到 快乐 。 编 程 不 是 脑 外 科 手 
术 ， 业 余人 士 是 完全 可 以 尝试 或 犯错 的 。 

我 喜欢 帮助 人 们 探索 Python 。 我 在 自己 的 博客 上 编写 编程 指南 〈http:/ 
inventwithpython.coryblog/)， 你 可 以 发 邮件 向 我 提问 (al@inventwithpython.com)。 

本 书 将 从 零 编程 知识 开始 ， 但 你 的 问题 可 能 超出 本 书 的 范围 。 记 住 如 何 有 效 地 
提问 ， 知 道 如 何 寻找 答案 ， 这 对 你 的 编程 之 旅 是 无 价 的 工具 。 

让 我 们 开始 吧 ! 
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Python 编程 语言 有 许多 语法 结构 、 标 准 库 函 数 和 交互 式 开 
发 环境 功能 。 好 在 ， 你 可 以 忽略 大 多 数 内容 。 你 只 需要 学 习 部 
分 内 容 ， 就 能 编写 一 些 方便 的 小 程序 。 

但 在 动手 之 前 ， 你 必须 学 习 一 些 基本 编程 概念 。 就 像 魔 法 
师 培训 ， 你 可 能 认为 这 些 概 念 既 深 奥 又 嘿 吴 ， 但 有 了 一 些 知 识 
和 实践 ， 你 就 能 像 魔法 师 一 样 指挥 你 的 计算 机 ， 完 成 难以 置信 
的 事情 。 

本 章 有 几 个 例子 ， 我 们 鼓励 你 在 交互 式 环境 中 输入 它们 。 交 互 式 环境 让 你 每 次 执行 
一 条 Python 指令 ， 并 立即 显示 结果 。 使 用 交互 式 环境 对 于 了 解 基本 Python 指令 的 行为 
是 很 好 的 ， 所 以 你 在 阅读 时 要 试 一 下 。 做 过 的 事 比 仅仅 读 过 的 内 容 ， 更 令 人 印象 深刻 。 

































































































































































1.1 在 交互 式 环境 中 输入 表达 式 


启动 IDLE 就 运行 了 交互 式 环 境 ， 这 是 和 Python 一 起 安装 的 。 在 Windows 上 ， 
打开 “开始 ”菜单 ， 选择“All Programs ”Python 3.3” 然后 选择 “IDLE (Python GUI7” 
在 OSX 上， 选择“Applications > MacPython 3.3 ”IDLE”。 在 Ubuntu 上 ， 打 开 新 的 
终端 窗口 并 输入 idle3。 
















































































一 个 窗口 会 出 现 , 包含 >>> 提 示 符 , 这 就 是 交互 式 环境 。 在 提示 符 后 输入 2+ 2， 
让 Python 做 一 些 简单 的 算术 。 


>>> 2 + 2 
4 

















IDLE 窗口 现在 应 该 显示 下 面 这 样 的 文本 : 


Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:06:53) [MSC v.1600 64 bit 
(AMD64)] on win32 








Type "copyright", "credits" or "license()" for more information. 
>>> 2 + 2 
4 


>>> 














在 Python 中 ，2 + 2 称 为 “表达 式 ” 它 是 语言 中 最 基本 的 编程 结构 。 表 达 式 包 
含 “ 值 ”〈 例 如 2) 和 “操作 符 ”(〈 例 如 +)， 并 且 总 是 可 以 求 值 〈 也 就 是 归 约 ) 为 单 
个 值 。 这 意味 着 在 Python 代码 中 ， 所 有 使 用 表达 式 的 地 方 ， 也 可 以 使 用 一 个 值 。 

在 前 面 的 例子 中 ，2 + 2 被 求 值 为 单个 值 4。 没 有 操作 符 的 单个 值 也 被 认为 是 一 
个 表达 式 ， 尽 管 它 求 值 的 结果 就 是 它 自 己 ， 像 下 面 这 样 : 


Ww 流 
2 


































































































错误 没关系 ! 

如 果 程序 包含 计算 机 不 能 理解 的 代码 ， 就 会 角 涡 ， 这 将 导致 Python 显示 错 
误 信 息 。 错 误 信息 并 不 会 破坏 你 的 计算 机 ， 所 以 不 要 害怕 犯错 误 . “崩溃 ”只 是 
意味 着 程序 意外 地 停止 执行 。 

如 果 你 希望 对 一 条 错误 信息 了 解 更 多 ， 可 以 在 网 上 查找 这 条 信息 的 准确 文本 ， 
找到 关于 这 个 错误 的 更 多 内 容 。 也 可 以 查看 http:Mnostarch.com/automatestuf/， 这 里 
有 常见 的 Python 错误 信息 和 含义 的 列表 。 

Python 表达 式 中 也 可 以 使 用 大 量 其 他 操作 符 。 例 如 , 表 1-1 列 出 了 Python 的 所 
































有 数学 操作 符 。 
表 1-1 数学 操作 符 ， 优 先 级 从 高 到 低 
操作 符 操作 例子 求 值 为 
炒米 指数 2 ** 3 8 
% 取 模 / 取 余数 22 % 8 6 
// 整除 / 商 数 取 整 22/8 2 
/ 除法 2218 2.75 
出 乘法 3*5 15 
s 减法 5-2 3 
+ 加 法 儿 计 这 4 


改 -学 操作 符 的 操 帮 顺 扁 (也 称 为 “优先 级 ”) 与 数学 中 类 似 。 侠 揉 作 符 首 先 红 
值 , 接 下 来 是 *、/、/W/ 和 % 操 作 符 ， 从 左 到 右 。+ 和 -操作 符 最 后 求 值 ， 也 是 从 左 到 右 。 
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>>> 2+3*6 

20 

>>> (2+ 3)*6 

30 

>>> 48565878 * 578453 
28093077826734 

>>> 2 ** 8 

256 

>>> 23 /7 
3.2857142857142856 
>>> 23 // 7 

3 

>>> 23 %7 

2 


>>> 2 + 2 

4 

>>> (5 - 1)* ((7 + 1) / (3 - 1)) 
16.0 








如 果 需 要 ，, 回 态 用 蜂 号 来 改变 通常 的 优 完 级 村 在 交互 式 环境 中 输入 下 列表 达 式 : 


在 每 个 例子 中 ， 作 为 程序 员 ， 你 必须 输入 表达 式 ， 但 Python 完成 较 难 的 工作 ， 
将 它 求 值 为 单个 值 。Python 将 继续 求 值 表达 式 的 各 个 部 分 , 填 到 守成 为 胞 信介 ， 如 





图 1-1 所 示 。 
(5 -1)*((7+1)/ (3- 1)) 
' 


4* ((7+1)/ (3- 1)) 
4*( 8 )/(3-1)) 


4*( 8 )/( 2) 


| 


4 * 4.0 


| 


16.0 


图 1-1 表达 式 求 值 将 它 归 约 为 单个 值 


将 操作 符 和 值 放 在 一 起 构成 表达 式 的 这 些 规则 ， 是 Python 编程 











分 ， 就 像 帮助 我 们 沟通 的 语法 规则 一 样 。 下 面 是 例子 : 


This is a grammatically correct English sentence. 


This grammatically is sentence not English correct a. 



































>>> 5 + 
File "<stdin>", line 1 
5 十 


SyntaxError: invalid syntax 
>>> 42 +5+*2 
File "<stdin>", line 1 
42. 二 :5 二 六 2 








语言 的 基本 部 


第 二 行 很 难 解 释 ， 因 为 它 不 符合 英语 的 规则 。 类 似 地 ， 如 果 你 输入 错误 的 Python 
间 令 ，Python 也 不 能 理解 ， 就 会 显示 出 错误 信息 ， 像 下 面 这 样 : 
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和 


SyntaxError: invalid syntax 


你 总 是 可 以 在 交互 式 环境 中 输入 一 条 指令 ， 检 查 它 是 否 能 工作 。 碌 要 扫 下 次 淹 
坏 计算 机 ， 最 坏 的 情况 就 是 Python 显示 出 错 信息 。 专 业 的 软件 开发 者 在 编 写 代码 时 ， 


中 常常 会 遇 到 错 误 信 息 心 ,o 















































1.2” 整 型 、 泽 点 型 和 字符 串 数 据 类 型 


记 住 ， 表 达 式 是 值 和 操作 符 的 组 合 ， 它 们 可 以 通过 求 值 成 为 单个 值 。“ 数 据 类 
型 ”是 一 类 值 ， 每 个 值 都 只 属于 一 种 数据 类 型 。 表 1-2 列 出 了 Python 中 最 常见 的 数 
据 类 型 。 例 如 ， 值 -2 和 30 属于 “ 整 型 ” 值 。 整 型 (或 int) 数据 类 型 表明 值 是 整数 。 
带 有 小 数 点 的 数 ， 如 3.14， 称 为 “ 浮 点 型 ”( 或 oat)。 请 注意 ， 尽 管 42 是 一 个 整 
型 ， 但 42.0 是 一 个 浮 点 型 。 
表 1-2 常见 数据 类 型 








































































































数据 类 型 例子 

整 型 -2, -1, 0, 1, 2, 3, 4, 5 

浮 点 型 -1.25, -1.0, --0.5, 0.0, 0.5, 1.0, 1.25 
字符 串 "aaa, 'aaa', '"Hello!', '11 cats' 





Python 程序 也 可 以 有 文本 值 ， 称 为 “字符 串 ” 或 strs (发 音 为 “stirs”)。 周 
全 单 引 U 铝 围 本 这 符 囊 玫 例如 Hello' 或 'Goodbye cruel world!)， 这 样 Python 就 
知道 字符 串 的 开始 和 结束 。 甚 至 可 区 有 没有 宣 符 的 生 符 惠 本 称 为 国 宇 全 符 吕 9 第 4 
章 更 详 名 

如 果 你 看 到 错误 信息 SyntaxError: EOL while scanning string literal， 可 能 是 忘记 
了 字符 串 末尾 的 单 引 号 ， 如 下 面 的 例子 所 示 : 







































































>>> 'Hello world! 
SyntaxError: EOL while scanning string literal 


1.3 ”字符 串 连 接 和 复制 


根据 操作 符 之 后 的 值 的 数据 类 型 ， 操 作 符 的 含义 可 能 会 改变 。 例 如 ， 在 操作 两 
个 整 型 或 浮 点 型 值 时 ，+ 是 相 加 操作 符 。 但 是 , 故 用 后 两 闪 字 符 审 时 昌 它 将 字符 十 ) 
姻 接 超 来 是 成 为 国 守 符 昌 连接 关 拧 作 符 国 在 交互 式 环 境 中 输入 以 下 内 容 : 


>>> 'Alice' + 'Bob' 
'AliceBob' 


该 表达 式 求 值 为 一 个 新 字符 串 ， 包 含 了 两 个 字符 串 的 文本 。 但 是 ， 如 果 你 对 一 
个 字符 串 和 一 个 整 型 值 使 用 加 操作 符 ，Python 就 不 知道 如 何 处 理 ， 它 将 显示 一 条 错 
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误 信 息 。 
>>> 'Alice' + 42 
Traceback (most recent call last): 
File "<pyshell#26>", line 1, in <module> 
'Alice' + 42 
TypeError: Can't convert 'int' object to str implicitly 








萌 误 信息 Can't convert 'int' object to str implicitly 表示 Python 认为 ， 你 试图 将 一 
个 整数 连接 到 字符 串 'Alice'。 代 码 必须 显 式 地 将 整数 转换 为 字符 串 ， 因 为 Python 不 
能 自动 完成 转换 。(1.6 节 “ 程 序 剖 析 ” 在 讨论 函数 时 ， 将 解释 数据 类 型 转换 。) 

在 用 于 两 个 整 型 或 浮 点 型 值 时 ，* 操 作 符 表 示 乘 法 。 虽 绍 作 符 用 一 个 字符 家 ] 
吓 和 和 于 个 整 型 值 时 是 它 交 成 (字符 审 复 制 潮红 帮 符 轿 在 交互 式 环境 中 输入 一 个 字 
符 串 乘 一 个 数字 ， 看 看 效果 。 


>>> 'Alice' * 5 
"ALiceAliceAliceAlLiceAlice， 


该 表达 式 求 值 为 一 个 字符 串 ， 它 将 原来 的 字符 串 重 复 若 干 次 ， 次 数 就 是 整 型 的 
值 。 字 符 串 复制 是 一 个 有 用 的 技巧 ， 但 不 像 字符 串 连接 那样 常用 。 

“操作 符 只 能 用 于 两 个 数字 《作为 乘法 )， 或 一 个 字符 串 和 一 个 整 型 〈 作 为 字符 
僵 复 制 探 作答 殉国 否则 ，Python 将 显示 错误 信息 。 


>>> 'Alice' * 'Bob' 
Traceback (most recent call last): 
File "<pyshell#32>", line 1, in <module> 
'Alice' * 'Bob' 
TypeError: can't multiply sequence by non-int of type 'str’' 
>>> 'Alice' * 5.0 
Traceback (most recent call last): 
File "<pyshell#33>", line 1, in <module> 
'Alice' * 5.0 
TypeError: can't multiply sequence by non-int of type 'float’ 


Python 不 理解 这 些 表 达 式 是 有 道理 的 : 你 不 能 把 两 个 单词 相 乘 ， 也 很 难 将 一 个 
任意 字符 串 复制 小 数 次 。 


1.4 在 变量 中 保存 值 


“变量 ”就 像 计算 机 内 存 中 的 一 个 盒子 ， 其 中 可 以 存放 一 个 值 。 如 果 你 的 程序 
稍 后 将 用 到 一 个 已 求 值 的 表达 式 的 结果 ， 就 可 以 将 它 保存 在 一 个 变量 中 。 


1.4.1 ”赋值 语句 
用 “赋值 语句 ”将 值 保存 在 变量 中 。 赋 值 语句 包含 一 个 变量 名 、 一 个 等 号 〈 称 
为 赋值 操作 符 )， 以 及 要 存储 的 值 。 如 果 输 入 赋值 语句 spam = 42， 那 么 名 为 spam 
的 变量 将 保存 一 个 整 型 值 42。 

可 以 哆 交 时 看 成 语 个 带 标 等 的 窟 了 各 信和 了 大 次 别 ， 如 图 1-2 所 示 。 
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@ 





Ky 


1-2 ”spam = 42 就 像 是 告诉 程序 “变量 spam 现在 有 整数 42 放 在 里 面 ” 
例如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> spam = 40 





>>> spam + eggs + Spam 


>>> spam = spam + 2 





第 一 次 存 入 一 个 值 ， 变 量 就 被 “初始 化 ”( 或 创建 ) @。 此 后 ， 可 以 在 表达 式 中 
使 用 它 ， 以 及 其 他 变量 和 值 @。( 果 变量 被 册 9 个 新 信和 是 老 什 就 被 忘记 了 @。 这 
就 是 为 什么 在 例子 结束 时 ，spam 求 值 为 42， 而 不 是 40。 这 称 为 是 柳 辐 呈 雹 变量 出 
在 交互 式 环 境 中 输入 以 下 代码 ， 尝 试 覆 写 一 个 字符 串 : 
>>> Spam = 'Hello' 
>>> spam 
'Hello' 
>>> Spam = 'Goodbye 


>>> Spam 
"Goodbye， 


就 像 图 1-3 中 的 盒子 ,这 个 例子 中 的 spam 变量 保存 了 'Hello', 直到 你 用 'Goodbye' 
替代 它 。 























图 1-3 如果 一 个 新 值 赋 给 变量 ， 老 值 就 被 遗忘 了 
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变量 


























表 1-3 中 有 一 些 容 法 变量 好 的 例子 。 你 可 以 给 变量 取 任 何 名 字 ， 只 要 它 遵守 以 
下 3 条 规则 : 
1. 只 能 是 一 个 词 。 
2. 只 能 包含 字母 、 数 字 和 下 划 线 。 
3. 轿 衣 和 
表 1-3 有 效 和 无 效 的 变量 名 
有 效 的 变量 名 无 效 的 变量 名 
balance current-balance 〈 不 允许 中 划 线 ) 
currentBalance current balanc (不 允许 空格 ) 


4account 〈 不 允许 数字 开头 ) 


current_balance 











_spam 42 〈 不 允许 数字 开头 ) 
SPAM total_$um 〈 不 允许 $ 这 样 的 特殊 字符 ) 
account4 'hello' (不 允许 ' 这 样 的 特殊 字符 ) 





这 意味 着 ，spam、 
同 的 变量 。 蔗 量 用 下 写字 导 开 类 是 Pyeoa 的 异 例 二 

本 书 的 变量 名 使 用 了 驼峰 形式 ， 没 有 
lookLikeThis， 而 不 是 looking_like_this。 
Python 代码 风格 PEP 8， 即 应 该 使 用 
8 本 身 “ 思 夸 的 一 致 性 是 头脑 狭隘 人 士 的 心 魔 ”: 










































































SPAM、Spam 和 sPaM 是 4 个 不 


下 划 线 。 也 就 是 说 ， 变 量 名 用 
些 有 经 验 的 程序 员 可 能 会 指出 ， 官 方 的 
下 划 线 。 我 喜欢 驼峰 式 ， 这 没有 错 ， 并 认为 PEP 






































“一 致 地 满足 风格 指南 是 重要 的 。 但 最 重要 的 是 ， 知 道 何 时 要 不 一 致 ， 因 为 有 


时 候 风 格 指南 就 是 不 适用 。 如 果 有 怀疑 ， 请 相信 自己 的 最 佳 判断 .” 





好 的 变量 名 描述 了 它 包含 的 数据 。 设 想 你 搬 到 一 间 新 屋子 ， 搬 家 纸箱 上 标的 都 
是 “东西 ” 你 永远 找 不 到 任何 东西 ! 本 书 的 例子 和 许多 Python 的 文档 , 使 用 spam、 


























eggs 和 bacon 等 变量 名 作为 一 般 名 称 (受到 Monty Python 的 “Spam” 短 





但 在 你 的 程序 中 ， 健 有 描述 性 的 名 字 有 助 生 提高 找 码 可 读 性 到 




















剧 的 影响 )， 


1.5 第 一 个 程序 














虽然 交互 式 环境 对 于 一 次 运行 




















条 Python 指令 很 好 ， 但 要 编写 完整 的 Python 








程序 ， 就 需要 在 文件 编辑 器 中 输入 指令 “文件 编辑 器 ”类 似 于 Notepad 或 TextMate 





这 样 的 文本 编辑 器 ， 它 有 一 些 针 对 输入 源 代码 的 特殊 功能 。 











编辑 器 ， 请 选择 File New Window。 




















要 在 IDLE 中 打开 文件 














出 现 的 窗口 中 应 该 包含 


个 光标 ， 等 待 你 输入 ， 但 它 与 交互 式 环境 不 同 。 在 交 
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互 式 环境 中 ， 按 下 回 车 ， 就 会 执行 Python 指令 。 文 件 编辑 器 允许 输 入 许多 指令 ， 保 
存 为 文件 ， 并 运行 该 程序 。 下 面 是 区 别 这 两 者 的 方法 : 
。 交互 式 环境 窗口 总 是 有 >>> 提 示 符 。 

文件 编辑 器 窗口 没有 >>> 提 示 符 。 

现在 是 创建 第 一 个 程序 的 时 候 了 ! 在 文件 编辑 器 窗口 打开 后 ， 输 入 以 下 内 容 : 


© # This program says hello and asks for my name. 





















































@ print('Hello world!') 
print('What is your name?') # ask for their name 
myName = input() 
print('It is good to meet you, ' + myName) 
print('The length of your name is:') 
print(len(myName)) 
@ print('What is your age?') # ask for their age 
myAge = input() 
print('You will be ' + str(int(myAge) + 1) + ' in a year.') 


在 输入 完 源 代码 后 保存 它 ， 这 样 就 不 必 在 每 次 启动 IDLE 时 重新 输入 。 从 文件 
编辑 器 窗口 顶部 的 菜单 ， 选 择 File 》 Save As。 在 “Save As” 窗 口中 ， 在 输入 框 输入 
hello.py， 然 后 点 击 “Save”。 

在 输入 程序 时 ， 应 该 过 一 段 时 间 就 保存 你 的 程序 。 这 样 ， 如 果 计 算 机 崩 演 ， 或 
者 不 小 心 退出 了 IDLE， 也 不 会 丢失 代码 。 作 为 快捷 键 ， 可 以 在 Windows 和 Linux 
上 按 Ctrl-S， 在 OSX 上 按 中 -S$， 来 保存 文件 。 

在 保存 文件 后 ， 让 我 们 来 运行 程序 。 选 择 Run Run Module， 或 按 下 F5 键 。 
程序 将 在 交互 式 环境 窗口 中 运行 ， 该 窗口 是 首次 启动 IDLE 时 出 现 的 。 记 住 ， 必 须 
在 文件 编辑 器 窗口 中 按 F5， 而 不 是 在 交互 式 环境 窗口 中 。 在 程序 要 求 输入 时 ,输入 
你 的 名 字 。 在 交互 式 环境 中 ， 程 序 输 出 应 该 看 起 来 像 这 样 : 


Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:06:53) [MSC v.1600 64 bit 
(AMD64)] on win32 


eeo 


Il 
























































































































































Type "copyright", "credits" or "license()" for more information . 
WN 
>>> 


Hello world! 

What is your name? 

Al 

It is good to meet you, Al 
The length of your name is: 
2 


What is your age? 

4 

You will be 5 in a year. 
>>> 





如 果 没 有 更 多 代码 行 要 执行 ，Python 程序 就 会 “中 止 ?。 也 就 是 说 ， 它 停止 运 
行 。( 也 可 以 说 Python 程序 “退出 ”了 。) 
可 以 通过 点 击 窗 口上 部 的 X, 关闭 文件 编辑 器 。 要 重新 加 载 一 个 保存 了 的 程序 ， 
就 在 菜单 中 选择 File > Open。 现 在 请 这 样 做 ， 在 出 现 的 窗口 中 选择 hello.py， 并 点 
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击 “Open” 按 钮 。 前 面 保 存 的 程序 hello.py 应 该 在 文件 编辑 器 窗口 中 打开 。 
























































闪 
1.6 程序 剖析 
新 程序 在 文件 编辑 器 中 打开 后 ,让 我 们 快速 看 一 看 它 用 到 的 Python 指令 , 逐一 
查看 每 行 代码 。 
1.6.1 注释 





下 面 这 行 称 为 “注释 ”。 


© # This program says hello and asks for my name . 




















Python 会 忽略 注释 ， 你 可 以 用 它们 来 写 程序 注解 ， 或 提醒 自己 代码 试图 完成 的 
。 这 一 行 中 ，# 标 志 之 后 的 所 有 文本 都 是 注释 。 
有 了 时候， 程序 员 在 测试 代码 时 ， 会 在 一 行 代码 前 加 上 #， 临时 删除 它 。 这 称 
于 注释 挤 代码 夺 在 你 想 搞 清 楚 为 什么 程序 不 工作 时 ， 这 样 做 可 能 有 用 。 稍 后 ， 
如 果 你 准备 还 原 这 一 行 代码 ， 可 以 去 掉 #。 

Python 也 会 忽略 注释 之 后 的 空 行 。 在 程序 中 ， 想 加 入 空 行 时 就 可 以 加 入 。 
让 你 的 代码 更 容易 阅读 ， 就 像 书 中 的 段落 一 样 。 


1.6.2 ”print() 函 数 
printO) 函 数 将 括号 内 的 字符 串 显 示 在 屏幕 上 。 


@ print('Hello world!') 
print('What is your name?') # ask for their name 


代码 行 print(Hello world!") 表 示 “ 打 印 出 字符 串 'Hello world! 的 文本 ”。 Python 
执行 到 这 行 时 ， 你 告诉 Python 调用 print0 函 数 ， 并 将 字符 串 “ 传 递 ” 给 函数 。 传 递 
给 函数 的 值 称 为 “参数 ”。 请 注意 ， 引 号 没有 打印 在 屏幕 上 。 它 们 只 是 表示 字符 串 
的 起 止 ， 不 是 字符 串 的 一 部 分 。 


也 可 以 用 这 个 函数 在 屏幕 上 打印 出 空 行 ， 只 要 调用 printO0 就 可 以 了 ， 括 号 内 没 
有 任何 东西 。 


在 写 函 数 名 时 ， 末 尾 的 左右 括号 表明 它 是 一 个 函数 的 名 字 。 这 就 是 为 什么 在 本 
书 中 你 会 看 到 print0， 而 不 是 print。 第 2 章 更 详细 地 探讨 了 函数 。 

1.6.3 input() 函 数 
函数 等 竺 用户 在 键盘 上 输入 一 些 文本 ， 并 按 下 回 车 键 。 


© myName = input() 






























































































































































































































































这 个 函数 求 值 为 一 个 字符 串 ， 即 用 户 输 入 的 文本 。 前 面 的 代码 行将 这 个 字符 串 
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赋 给 变量 myName。 
尔 可 以 认为 inputO 函 数 调 用 是 一 个 表达 式 ， 它 求 值 为 用 户 输入 的 任何 字符 串 。 
如 果 用 户 输入 'Al， 那 么 该 表达 式 就 求 值 为 myName = 'Al。 



































1.6.4 打印 用 户 的 名 字 























接 下 来 的 printO 调 用 ， 在 括号 间 包 含 表 达 式 'Ttis good to meet you ' + myName。 














@ print(' It is good to meet you, ' + myName) 





要 记 住 , 表达 式 总 是 可 以 求 值 为 一 个 值 。 如 果 'Al 是 上 一 行 代码 保存 在 myName 
中 的 值 , 那么 这 个 表达 式 就 求 值 为 Ttis good to meet you, Al。 这 个 字符 串 传 给 printO)， 
它 将 输出 到 屏幕 上 。 








下 





len() 函 数 





你 可 以 向 len0 函 数 传递 一 个 字符 串 〈 或 包含 字符 串 的 变量 )， 然 后 该 函数 求 值 
为 一 个 整 型 值 ， 即 字符 串 中 字符 的 个 数 。 























© print('The length of your name is:') 


print(len(myName)) 
在 交互 式 环 境 中 输入 以 下 内 容 试 一 试 : 


>>> len('hello') 














5 

>>> len('My very energetic monster just scarfed nachos.') 
46 

>>> len('') 

0 


就 像 这 些 例子 ，len(myName) 求 值 为 一 个 整数 。 然 后 它 被 传递 给 print0)， 在 屏幕 
上 显示 。 请 注意 ，printO 人 允许 传 入 一 个 整 型 值 或 字符 串 。 但 如 果 在 交互 式 环境 中 输 
入 以 下 内 容 ， 就 会 报错 : 
>>> print('I am ' + 29 + ' years ol1d.') 
Traceback (most recent call last): 
File "<pyshell#6>", line 1, in <module> 


print('I am ' + 29 + ' years 01d.) 
TypeError: Can't convert 'int' object to str implicitly 


导致 错误 的 原因 不 是 print0 函 数 ， 而 是 你 试图 传递 给 print0 的 表达 式 。 如 果 在 
交互 式 环境 中 单独 输入 这 个 表达 式 ， 也 会 得 到 同样 的 错误 。 
>>> 'I am ' + 29 + ' years 01d.， 
Traceback (most recent call last): 
File "<pyshell#7>", line 1, in <module> 


'ITam’' +29+ ' years 01d.， 
TypeError: Can't convert 'int' object to str implicitly 


报错 是 因为 ， 只 能 用 + 操作 符 加 两 个 整数 ， 或 连接 两 个 字符 串 。 不 能 让 一 个 整 
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数 和 一 个 字符 串 相 加 ， 因 为 这 不 符合 Python 的 语法 。 可 以 使 用 字符 串 版 本 的 整数 ， 
修复 这 个 错误 。 这 在 下 一 区 : 解释 。 














1.6.6 str()、int() 和 float() 函 数 
如 果 想 要 连接 一 个 整数 〈 如 29) 和 一 个 字符 串 ， 再 传递 给 print()， 就 需要 获得 
值 29'。 它 是 29 的 字符 串 形 式 。str0 函 数 可 以 传 入 一 个 整 型 值 ， 并 求 值 为 它 的 字符 
串 形 式 ， 像 下 面 这 样 : 
>>> Str(29) 
,29， 
>>> print('I am ' + str(29) + ' years 01d.) 
I am 29 years old. 


因为 str(29) 求 值 为 '29?， 所 以 表达 式 T am ' + str(29) + ' years old.' 求 值 为 T am ' + 
'29'+ 'years old.'， 它 又 求 值 为 Tam 29 years old.'。 这 就 是 传递 给 print0 函 数 的 值 。 
str0、int0 和 float0 函 数 将 分 别 求 值 为 传 入 值 的 字符 串 、 整 数 和 学 点 数 形式 。 请 
尝试 用 这 些 函 数 在 交互 式 环境 中 转换 一 些 值 ， 看 看 会 发 生 什么 。 
>>> str(0) 


>>> str(-3.14) 
'-3.14' 



































































































































>>> int('-99') 
>>> int(1.25) 
>>> int(1.99) 

>>> float('3.14') 
3.14 


>>> float(10) 
10.0 




















前 面 的 例子 调用 了 str0、intD0 和 floatO 函 数 ， 辐 它们 传 入 其 他 数据 类 型 的 值 ， 得 
到 了 字符 串 、 整 型 或 浮 点 型 的 值 。 

如 果 想 要 将 一 个 整数 或 浮 点 数 与 一 个 字符 串 连接 ，str0 函 数 就 很 方便 。 如 果 你 
有 一 些 字符 串 值 ， 希 望 将 它们 用 于 数学 运算 ，int0 函 数 也 很 有 用 。 例 如 ，input0 函 
数 总 是 返回 一 个 字符 串 ， 即 便 用 户 输 入 的 是 一 个 数字 。 在 交互 式 环境 中 输入 spam = 
input0， 在 它 等 竺 文本 时 输入 101。 













































































>>> Spam = input() 
101 

>>> Spam 

“101 








保存 在 spam 中 的 值 不 是 整数 101， 而 是 字符 串 '101'。 如 果 想 要 用 spam 中 的 值 进 
行 数学 运算 ， 那 就 用 intO 函 数 取 得 spam 的 整数 形式 ， 然 后 将 这 个 新 值 存 在 spam 中 。 
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>>> Spam = int(spam) 
>>> Spam 
101 











现在 你 应 该 能 将 spam 变量 作为 整数 ， 而 不 是 字符 


>>> spam * 10 / 5 
202.0 








请 注意 ， 如 果 你 将 一 个 不 能 求 值 为 整数 的 值 传递 给 int0，Python 将 显示 出 错 信息 。 


>>> int('99.99') 
Traceback (most recent call last): 








File "<pyshell#18>", line 1, in <module> 


int('99.99') 


ValueError: invalid literal for int() with base 10: '99.99' 


>>> int('twelve') 
Traceback (most recent call last): 


File "<pyshell#19>", line 1, in <module> 


int('twelve') 


ValueError: invalid literal for int() with base 10: 'twelve’ 


如 果 需 要 对 浮 点 数 进行 取 整 运算 ， 也 可 以 用 int0 函 数 。 


>>> int(7.7) 

7 

>>> int(7.7) + 1 
8 





























在 你 的 程序 中 ， 最 后 3 行使 














@ print('What is your age? ') # ask for their age 


myAge = input() 


print('You will be ' + str(int(myAge) + 1) + ' in a year.') 


使 用 。 








了 函数 int0 和 str()， 取 得 适当 数据 类 型 的 值 。 








myAge 变量 包含 了 input0 函 数 返 回 的 值 。 因为 input0 函 数 总 

















(即使 用 户 输入 的 是 数字 )， 所 以 你 可 以 使 用 inttmyAge) 返 回 字 


























整 型 值 随后 在 表达 式 inttmyAge) + 1 中 与 1 相 加 。 








相 加 的 结果 传递 给 str0 函 数 : str(int(myAge) + 1)。 然 后 





串 '"You will be ' 和 ' in a year.' 连 接 ， 
终 传递 给 print0)， 在 屏幕 上 显示 。 















































求 值 为 一 个 更 长 的 字符 串 






































假定 用 户 输入 字符 串 4， 保 存在 myAge 中 。 字 符 串 4 被 转换 为 一 个 整 型 ， 所 以 
你 可 以 对 它 加 1。 结 果 是 5。str0 函 数 将 这 个 结果 转化 为 字符 串 ， 这 样 你 就 可 以 将 它 
与 第 二 个 字符 串 in a year' 连 接 ， 创 建 最 终 的 消息 。 这 些 求 值 步骤 如 图 1-4 所 示 。 


文本 和 数字 相等 判断 
虽然 数字 的 字符 串 值 被 认为 与 整 型 值 和 浮 点 型 值 完全 不 同 , 但 整 型 值 可 以 与 











浮 点 值 相等 。 
>>> 42 == '42" 
False 


>>> 42 == 42.0 
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True 
>>> 42.0 == 0042.000 
True 


Python 进行 这 种 区 分 ， 因 为 字符 串 是 文本 ， 而 整 型 值 和 浮 点 型 都 是 数字 。 
print('You will be ' + str(int(myAge) + 1) + ' in a year.') 
print('You will be ' + str(int( '4' ) + 1) + ' in a year.') 
print('You will be ' + str( 4+1 ) + ' ina year.') 
print('You will be ' + str( 5 ) + '" ina year.') 


print('You will be 5°' + ' in a year.') 


re Will be ' + “5 + ' in a year.') 


print('You will be 5 in a year.') 


图 1-4 如 果 4 保 存在 myAge 中 ， 求 值 的 步骤 


1.7 小 结 


























你 可 以 用 一 个 计算 器 来 计算 表达 式 ， 或 在 文本 处 理 器 中 输入 字符 串 连 接 。 甚 至 
可 以 通过 复制 粘贴 文本 ， 很 容易 地 实现 字符 串 复 制 。 但 是 表达 式 以 及 组 成 它们 的 值 
(操作 符 、 变 量 和 函数 调用 )， 才 是 构成 程序 的 基本 构建 块 。 一 旦 你 知道 如 何 处 理 这 
些 元 素 ， 就 能 够 用 Python 操作 大 量 的 数据 。 

最 好 是 记 住 本 章 中 介绍 的 不 同类 型 的 操作 符 (+、-、*、/、/W/、% 和 准 是 数学 操 
作 符 ，+ 和 * 是 字符 串 操 作 符 )， 以 及 3 种 数据 类 型 〈 整 型 、 浮 点 型 和 字符 串 )。 

我 们 还 介绍 了 几 个 不 同 的 函数 。print0 和 inputO) 函 数 处 理 简 单 的 文本 输出 (到 屏幕 ) 
和 输入 《通过 键盘 )。len0 函 数 接受 一 个 字符 串 ， 并 求 值 为 该 字符 串 中 字符 的 数目 。 

在 下 一 章 中 , 你 将 学 习 如 何 告诉 Python 根据 它 拥 有 的 值 ， 明智 地 决定 什么 代码 
要 和 运行， 什么 代码 要 跳 过 ， 什 么 代码 要 重复 。 这 称 为 “控制 流 ” 它 让 你 编写 程序 
来 做 出 明智 的 决定 。 























































































































































































































1. 下 面 哪些 是 操作 符 ， 哪 些 是 值 ? 


‘hello' 
-88.8 


/ 


第 1 章 Python 基础 15 








2. 下面 哪 个 是 变量 ， 哪 个 是 字符 串 ? 











3. 说 出 3 种 数据 类 型 。 

4. 表达 式 由 什么 构成 ? 所 有 表达 式 都 做 什么 事 ? 
5 

6 














. 本 章 介绍 了 赋值 语句 ， 如 spam = 10。 表 达 式 和 语句 有 什么 区 别 ? 
.下 列 语句 运行 后 ， 变 量 bacon 的 值 是 什么 ? 






































bacon = 20 
bacon + 1 


7. 下 面 两 个 表达 式 求 值 的 结果 是 什么 ? 


'spam' + "Spamspam 
'spam' * 3 


8. 为 什么 eggs 是 有 效 的 变量 名 ， 而 100 是 无 效 的 ? 

9. 哪 3 个 函数 能 分 别 取得 一 个 值 的 整 型 、 浮 点 型 或 字符 串 版 本 ? 

10. 为 什么 这 个 表达 式 会 导致 错误 ?如 何 修复 ? 
'I have eaten ' + 99 + ' burritos. 

附加 题 : 在 线 查 找 len0 函 数 的 Python 文档 。 它 在 一 个 标题 为 “Built-in Functions” 
的 网 页 上 。 扫 一 眼 Python 的 其 他 函数 的 列表 ， 查 看 round0 函 数 的 功能 ， 在 交互 式 
环境 中 使 用 它 。 
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第 Cs 


控 制 流 

















你 已 经 知道 了 单条 指令 的 基本 知识 。 程 序 就 是 一 系列 指 
令 。 但 编程 真正 的 力量 不 仅 在 于 运行 (或 “执行 ”) 一 条 接 一 
条 的 指令 ， 就 像 周 末 的 任务 清单 那样 。 根 据 表达 式 求 值 的 结果 ， 
程序 可 以 决定 跳 过 指令 ,重复 指令 ,或 从 几 条 指令 中 选择 一 条 
运行 。 实 际 上 ， 你 几乎 永远 不 希望 程序 从 第 一 行 代码 开始 ， 简 
单 地 执行 每 行 代码 ， 直 到 最 后 一 行 。“ 控 制 流 语句 ”可 以 决定 
在 什么 条 件 下 执行 哪些 Python 语句 。 

这 些 控制 流 语句 直接 对 应 于 流程 图 中 的 符号 ， 所 以 在 本 章 中 ， 我 将 提供 示例 代 
码 的 流程 图 。 图 2-1 展示 了 一 张 流 程 图 ， 内 容 是 如 果 下 雨 怎么 办 。 按 照 箭 头 构成 的 
路 径 ， 从 开始 到 结束 。 

在 流程 图 中 ， 通 常 有 不 止 一 种 方法 从 开始 走 到 结束 。 计 算 机 程序 中 的 代码 行 也 
是 这 样 。 流 程 图 用 鞭 形 表示 这 些 分 支 节 点 ， 其 他 步骤 用 抢 形 表示 。 开 始 和 结束 步 又 
] 带 圆 角 的 矩形 表示 。 

但 在 学 习 流 程控 制 语句 之 前 ,首先 要 学 习 如 何 表 示 这 些 yes 和 no 选项 。 同 时 你 
需要 理解 ， 如 何 将 这 些 分 支 节点 写成 Python 代码 。 要 做 到 这 一 点 ， 让 我 们 先 看 看 
布尔 值 、 比 较 操 作 符 和 布尔 操作 符 。 
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2-1 一 张 流程 图 ， 告 诉 你 如 果 下 雨 要 做 什么 





2.1 布尔 值 


虽然 整 型 、 浮 点 型 和 字符 串 数据 类 型 有 无 数 种 可 能 的 值 ， 但 “布尔 ”数据 类 型 
只 有 两 种 值 : True 和 False。Boolean〔 布 尔 ) 的 首 字 母 大 写 ， 因 为 这 个 数据 类 型 是 
根据 数学 家 George Boole 命名 的 。 在 作为 Python 代码 输入 时 ， 布 尔 值 True 和 False 
不 像 字符 串 ， 两 边 没 有 引号 ， 它 们 总 是 以 大 写字 母 工 或 E 开 头 ， 后 面 的 字母 小 写 。 
在 交互 式 环 境 中 输入 下 面 内 容 , 其 中 有 些 指令 是 故意 弄 错 的 , 它们 将 导致 出 错 信息 。 


© >>> Spam = True 
>>> Spam 
True 
@ >>> true 
Traceback (most recent call last): 
File "<pyshell#2>", line 1, in <module> 
true 
NameError: name 'true' is not defined 
©@ >>> True = 2 + 2 
SyntaxError: assignment to keyword 


像 其 他 值 一 样 ， 布 尔 值 也 用 在 表达 式 中 ， 并 且 可 以 保存 在 变量 中 @。 如 果 大 小 
写 不 正确 @，, 或 者 试图 使 用 True 和 False 作为 变量 名 @@, Python 就 会 给 出 错误 信息 。 
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2.2 ”比较 操作 符 


“比较 操作 符 ” 比 较 两 个 值 ， 求 值 为 一 个 布尔 值 。 表 2-1 列 出 了 比较 操作 符 。 
表 2-{ 比较 操作 符 














操作 符 含义 

= 等 于 

上 不 等 于 

党 外 二 

yt 一 了 

Cs 小 于 等 于 
= 大 于 等 于 




















这 些 操 作 符 根据 给 它们 提供 的 值 ， 求 值 为 True 或 False。 现 在 让 我 们 尝试 一 些 
操作 符 ， 从 == 和 ! = 开始 。 


>>> 42 == 42 
True 

>>> 42 == 99 
False 

>>> 2 != 3 
True 

>>> 2 != 2 
False 


如 果 两 边 的 值 一 样 ，== (等于) 求 值 为 True。 如 果 两 边 的 值 不 同 ，!=《〈 不 等 于 ) 
求 值 为 True。== 和 != 操 作 符 实际 上 可 以 用 于 所 有 数据 类 型 的 值 。 


>>> 'hello' == 'hello' 
True 

>>> 'hello' == 'Hel1o， 
False 

>>> 'dog' != 'cat' 
True 

>>> True == True 

True 

>>> True != False 
True 

>>> 42 == 42.0 

True 

>>> 42 == '42' 

False 


请 注意 ， 整 型 或 浮 点 型 的 值 永远 不 会 与 字符 串 相等 。 表达 式 42 == 42'@ 求 信 为 
False 是 因为 ，Python 认为 整数 42 与 字符 串 '42' 不 同 。 
男 一 方面 ，<、>、<= 和 >= 操 作 符 仪 用 于 整 型 和 浮 点 型 值 。 


>>> 42 < 100 
True 
>>> 42 > 100 
False 























© 
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>>> 42 < 42 
False 
>>> eggCount = 42 
@ >>> eggCount <= 42 
True 
>>> myAge = 29 
© >>> myAge >= 10 
True 


操作 符 的 区 别 
你 可 能 已 经 注意 到 ，== 操 作 符 (等 于 ) 有 两 个 等 号 ， 而 = 操作 符 ( 赋值) 只 
有 一 个 等 号 。 这 两 个 操作 符 很 容易 混淆 。 只 要 记 住 : 
。 == 操 作 符 (等 于 ) 问 两 个 值 是 否 彼此 相同 。 
。 = 操作 符 〈 赋 值 ) 将 右边 的 值 放 到 左边 的 变量 
为 了 记 住 谁 是 谁 , 请 注意 == 操 作 符 (等于) 包含 两 个 字符 , 就 像 != 操 作 符 (不 
等 于 ) 包含 两 个 字符 一 样 。 
尔 会 经 常用 比较 操作 符 比 较 一 个 变量 和 另外 某 个 值 。 就 像 在 例子 eggCount <= 
42@ 和 myAge >=10@ 中 一 样 ( 毕 竞 , 除了 在 代码 中 输入 'dog' != 'cat' 以 外 ,你 本 来 也 
可 以 直接 输入 True)。 稍 后 ， 在 学 习 控 制 流 语句 时 ， 你 会 看 到 更 多 的 例子 。 


































































































2.3 布尔 操作 符 


3 个 布尔 操作 符 (and、or 和 not) 用 于 比较 布尔 值 。 像 比较 操作 符 一 样 ， 它 们 
将 这 些 表达 式 求 值 为 一 个 布尔 值 。 让 我 们 仔细 看 看 这 些 操 作 符 ， 从 and 操作 符 开 始 。 


2.3.1 二 元 布尔 操作 符 
and 和 or 操作 符 总 是 接受 两 个 布尔 值 (或 表达 式 )， 所 以 它们 被 认为 是 “二 元 ” 
操作 符 。 如 果 两 个 布尔 值 都 为 True，and 操作 符 就 将 表达 式 求 值 为 True， 否则 求 值 
为 False。 在 交互 式 环境 中 输入 某 个 使 用 and 的 表达 式 ， 看 看 效果 。 


>>> True and True 
True 
>>> True and False 
False 


“ 真 值 表 ”显示 了 布尔 操作 符 的 所 有 可 能 结果 。 表 2-2 是 操作 符 and 的 真 值 表 。 
表 2-2 and 操作 符 的 真 值 表 




















































































































表达 式 求 值 为 
True and True True 
True and False False 
False and True False 
False and False False 
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另 一 方面 ， 只 要 有 一 个 布尔 值 为 真 ，or 操作 符 就 将 表达 式 求 值 为 True。 如果 都 
是 False， 所 求 值 为 False。 


>>> False or True 
True 
>>> False or False 
False 























可 以 在 or 操作 符 的 真 值 表 中 看 到 每 一 种 可 能 的 结果 ， 如 表 2-3 所 示 。 
表 2-3 or 操作 符 的 真 值 表 




















表达 式 求 值 为 
True or True True 
True or False True 
False or True True 
False or False False 


2.3.2 not 操作 符 


和 and 和 or 不 同 ，not 操作 符 只 作用 于 一 个 布尔 值 〈 或 表达 式 )。not 操作 符 求 
值 为 相反 的 布尔 值 。 


>>> not True 
False 
© >>> not not not not True 
True 





























就 像 在 说 话 和 写作 中 使 用 双重 否定 ， 你 可 以 内 套 not 操作 符 @， 虽 然 在 真正 的 
程序 中 并 不 经 常 这 样 做 。 表 2-4 展示 了 not 的 真 值 表 。 


表 2-4 not 操作 符 的 真 值 表 














表达 式 求 值 为 
not True False 
not False True 


2.4 混合 布尔 和 比较 操作 符 


既然 比较 操作 符 求 值 为 布尔 值 ， 就 可 以 和 布尔 操作 符 一 起 ， 在 表达 式 中 使 用 。 
可 忆 一 下 ，and、or 和 not 操作 符 称 为 布尔 操作 符 是 因为 ， 它 们 总 是 操作 于 布尔 
值 。 虽 然 像 4< 5 这 样 的 表达 式 不 是 布尔 值 ， 但 可 以 求 值 为 布尔 值 。 在 交互 式 环境 



























































中 ， 淮 试 输入 一 些 使 用 比较 操作 符 的 布尔 表达 式 。 
>>> (4< 5) and (5 < 6) 

True 

>>> (4 < 5) and (9 < 6) 

False 


第 2 章 控制 流 21 


>>> (1 == 2) or (2 == 2) 
True 

计算 机 将 先 求 值 左边 的 表达 式 , 然后 再 求 值 右边 的 表达 式 。 知 道 两 个 布尔 值 后 ， 
它 又 将 整个 表达 式 再 求 值 为 一 个 布尔 值 。 你 可 以 认为 计算 机 求 值 4 < 5) 和 (5 < 6) 的 
过 程 ， 如 图 2-2 所 示 。 






























































(4<5) and (5< 6) 
True and (5 < 6) 
True and True 


True 


图 2-2 (4<5) 和 (5<6) 求 值 为 True 的 过 程 


也 可 以 在 一 个 表达 式 中 使 用 多 个 布尔 操作 符 ， 与 比较 操作 符 一 起 使 用 。 



































>>> 2+2==4andnot2+2==5 and2*2== 2+2 
True 


和 算术 操作 符 一 样 ， 布 尔 操作 符 也 有 操作 顺序 。 在 所 有 算术 和 比较 操作 符 求 值 
后 ，Python 先 求 值 not 操作 符 ， 然 后 是 and 操作 符 ， 然 后 是 or 操作 符 。 






























































2.5 ”控制 流 的 元 素 


控制 流 语 句 的 开始 部 分 通常 是 “条 件 ”， 接 下 来 是 一 个 代码 块 ， 称 为 “ 子 句 ” 
在 开始 学 习 具 体 的 Python 控制 流 语句 之 前 ， 我 将 介绍 条 件 和 代码 块 。 






































2.5.1 条 件 









































你 前 面 看 到 的 布尔 表达 式 可 以 看 成 是 条 件 ， 它 和 表达 式 是 一 回 事 。“ 条 件 ” 只 是 在 
控制 流 语句 的 上 下 文中 更 具体 的 名 称 。 条 件 总 是 求 值 为 一 个 布尔 值 ，Trve 或 False。 控 制 
流 语句 根据 条 件 是 True 还 是 False， 来 决定 做 什么 。 几 乎 所 有 的 控制 流 语 句 都 使 用 条 件 。 






































2.5.2 ”代码 块 
一 些 代 码 行 可 以 作为 一 组 ， 放 在 “代码 块 ” 中 。 可 以 根据 代码 行 的 缩 进 ， 知 道 
代码 块 的 开始 和 结束 。 代 码 块 有 3 条 规则 。 
1. 缩 进 增加 时 ， 代 码 块 开始 。 
2， 代 码 块 可 以 包含 其 他 代码 块 。 
3. 缩 进 减少 为 零 ， 或 减少 为 外 面包 围 代码 块 的 缩 进 ， 代 码 块 就 结束 了 。 
看 一 些 有 缩 进 的 代码 ， 更 容易 理解 代码 块 。 所 以 让 我 们 在 一 小 段 游戏 程序 中 ， 
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寻找 代码 块 ， 如 下 所 示 : 


if name == 'Mary': 
0 print('Hello Mary') 
if password == 'swordfish': 
22 print('Access granted.' 
else: 
© print('Wrong password.' 


第 一 个 代码 块 @ 开 始 于 代码 行 print(Hello Mary)， 并 且 包 含 后 面 所 有 的 行 。 在 
这 个 代码 块 中 有 男 一 个 代码 块 @， 它 只 有 一 行 代 码 : print(Access Granted.)。 第 三 个 
代码 块 @ 也 只 有 一 行 : print(Wrong password.')。 
























































2.6 程序 执行 
在 第 1 章 的 hello.py 程序 中 ，Python 开始 执行 程序 顶部 的 指令 ， 然 后 一 条 接 一 
条 往 下 执行 。“ 程 序 执行 ”( 或 简称 “执行 ”) 这 一 术语 是 指 当 前 被 执行 的 指令 。 如 
果 将 源 代码 打印 在 纸 上 ， 在 它 执 行 时 用 手指 指 着 每 一 行 代码 ， 你 可 以 认为 手指 就 是 
程序 执行 。 
但 是 ， 并 非 所 有 的 程序 都 是 从 上 至 下 简单 地 执行 。 如 果 用 手指 追踪 一 个 带 
有 控制 流 语 句 的 程序 ， 可 能 会 发 现 手 指 会 根据 条 件 跳 过 源 代 码 ， 有 可 能 跳 过 整 
个 子 句 。 

















































































































2.7 ”控制 流 语句 


现在 ， 让 我 们 来 看 最 重要 的 控制 流 部 分 : 语句 本 身 。 语 句 代表 了 在 图 2-1 的 流 
程 图 中 看 到 的 萎 形 ， 它 们 是 程序 将 做 出 的 实际 决定 。 





















































最 常见 的 控制 流 语句 是 过 语句。if 语句 的 子 句 (也 就 是 紧 跟 让 语句 的 语句 块 )， 
将 在 语句 的 条 件 为 True 时 执行 。 如 果 条 件 为 False， 子 句 将 跳 过 。 

在 英文 中 ,站 语 句 念 起 来 可 能 是 :“ 如 果 条 件 为 真 ,执行 子 句 中 的 代码 。 ”在 Python 
中 ， 站 语句 包含 以 下 部 分 : 














。 这 关键 字 ; 
。 条 件 ( 即 求 值 为 True 或 False 的 表达 式 ); 
。 冒号 ; 














。 在 下 一 行 开 始 ， 缩 进 的 代码 块 〈 称 为 让 子 句 )。 
例如 ， 假 定 有 一 些 代码 ， 检 查 某 人 的 名 字 是 否 为 Alice《〈 假 设 此 前 曾 为 name 
赋值 )。 
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if name == 'Alice': 
print('Hi, Alice.') 


所 有 控制 流 语句 都 以 冒号 结尾 ， 后 面 跟着 一 个 新 的 代码 块 ( 子 句 )。 语 句 的 证 
子 句 是 代码 块 ， 包 含 print(Hi, Alice)。 图 2-3 展示 了 这 段 代 码 的 流程 图 。 



































print(CHi Alice.) 





name == 'Alice’ 





2-3 ”这 语句 的 流程 图 


2.7.2 else 语句 
站 子 句 后 面 有 时 候 也 可 以 跟着 else 语句 。 只 有 让 语句 的 条 件 为 False 时 , else 
子 句 才 会 执行 。 在 英语 中 ，else 语句 读 起 来 可 能 是 :“ 如 果 条 件 为 真 ， 执 行 这 段 
代码 。 否 则 ， 执 行 那 段 代 码 ”。else 语句 不 包含 条 件 ， 在 代码 中 ，else 语句 中 包 
























































含 下 面部 分 : 
。 else 关键 字 ; 
。 冒号 ; 

















。 在 下 一 行 开始 ， 缩 进 的 代码 块 ( 称 为 else 子 句 )。 
可 到 Alice 的 例子 ， 我 们 来 看 看 使 用 else 语句 的 一 些 代码 ， 在 名 字 不 是 Alice 
时 ， 提 供 不 一 样 的 问候 。 
if name == 'Alice': 
print('Hi, Alice.') 


else: 
print('Hello, stranger.') 


图 2-4 展示 了 这 段 代码 的 流程 图 。 
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name == 'Alice’ print('Hi, Alice.) 


print(Hello, stranger.) 


2-4 else 语句 的 流程 图 


2.7.3 elif 语句 








虽然 只 有 过 或 else 子 句 会 被 执行 ， 但 有 时 候 可 能 你 希望 ,“ 许 多 ”可 能 的 子 句 








中 有 一 个 被 执行 。elif 语句 是 “否则 如 果 ” 总 是 跟 在 让 或 另 一 条 elif 语句 后 面 。 














已 

















提供 了 另 一 个 条 件 ， 仅 在 前 面 的 条 件 为 False 时 才 检 查 该 条 件 。 在 代码 中 ，elif 语句 











总 是 包含 以 下 部 分 : 
。 elif 关键 字 ; 
。 条 件 ( 即 求 值 为 True 或 False 的 表达 式 ); 
。 冒号 ; 
。 在 下 一 行 开始 ， 缩 进 的 代码 块 〈 称 为 elif 子 句 )。 
让 我 们 在 名 字 检 查 程序 中 添加 elif， 看 看 这 个 语句 的 效果 。 
if name == 'Alice': 
print('Hi, Alice.') 


elif age < 12: 
print('You are not Alice, kiddo.') 
























































这 一 次 ,检查 此 人 的 年 龄 。 如 果 比 12 岁 小 ， 就 告诉 他 一 些 不 同 的 东西 。 可 以 








在 图 2-5 中 看 到 这 段 代 码 的 流程 图 。 


















































的 条 件 为 True, 剩 下 的 elif 子 句 会 自动 跳 过 。 例如 ,打开 一 个 新 的 文件 编辑 嚣 窗 
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如 果 age < 12 为 True 并 且 name == 'Alice' 为 False，elif 子 句 就 会 执行 。 但 是 ， 
如 果 两 个 条 件 都 为 False， 那 么 两 个 子 句 都 会 跳 过 。“ 不 能 ”保证 至 少 有 一 个 子 句 会 
被 执行 。 如 果 有 一 系列 的 elif 语句 ， 仪 有 一 条 或 零 条 子 句 会 被 执行 。 一 旦 一 个 语句 





口 ， 
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输入 以 下 代码 ， 保 存 为 vampire.py。 


if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 


print('You are not Alice, kiddo.') 


elif age > 2000: 


print('Unlike you, Alice is not an undead, immortal vampire.') 


elif age > 100: 


print('You are not Alice, grannie.') 


name == 'Alice’ 





假 



















2-5 elif 语 名 的 流程 图 


print('Hi, Alice.) 


print(You are not Alice, kiddo.) 























这 里 ， 我 添加 了 另外 两 条 elif 语句 ， 让 名 字 检 查 程序 根据 age 的 不 同 答 案 而 发 














出 问候 。 图 2-6 展示 了 这 段 代 码 的 流程 图 。 














但 是 ，elif 语句 的 次 序 确实 重要 。 让 我 们 重新 排序 ， 引 入 一 个 缺陷 。 回 忆 一 下 ， 


一 旦 找到 一 个 True 条 从 








F， 乘 


局 


余 的 子 句 就 会 自动 晶 











kt 过。 所 以 如 果 交 换 vampire.py 中 的 


一 些 子 句 ， 就 会 遇 到 问题 。 像 下 面 这 样 改变 代码 ， 将 它 保存 为 vampire2.py。 


if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 


print('You are not Alice, kiddo.') 
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© elif age > 100: 
print('You are not Alice, grannie.') 
elif age > 2000: 
print('Unlike you, Alice is not an undead, immortal vampire.') 


name == 'Alice' 真 print('Hi, Alice.) 





假 


> 


print(You are not Alice, kiddo.) 


假 


age > 2000 真 print( Unlike you, Alice is not 
an undead,immortal vampire,) 


假 


age> 100 真 print(You are not Alice, grannie.) 


2-6 vampire.py 程序 中 多 重 elif 语句 的 流程 图 


假设 在 这 段 代 码 执 行 之 前 ，age 变量 的 值 是 3000。 你 可 能 预计 代码 会 打印 出 字 
符 串 'Unlike you, Alice is not an undead, immortal vampire.'。 但 是 ， 因 为 age > 100 条 
件 为 真 〈 毕 竟 3000 大 于 100) @， 字符 串 "You are not Alice, grannie.' 被 打印 出 来 ， 剩 
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下 的 语句 自动 跳 过 。 别 筷 了 ， 最 多 只 有 一 个 子 句 会 执行 ， 对 于 elif 语句 ， 次 序 是 很 
重要 的 。 

图 2-7 展示 了 前 面 代 码 的 流程 图 。 请 注意 ， 菱形 age > 100 和 age > 2000 交换 了 
位 置 。 


name == Alice' 真 print('Hi, Alice,) 





假 
> 真 print(You are not Alice, kiddo.) 
假 
Ky 真 print(You are not Alice, grannie,) 
假 
age > 2000 2 print(Unlike you, Alice is not 
9 A \ an undead, immortal vampire,) 
假 
结束 “” 问 


2-7 vampire2.py 程序 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 发 生 ， 
因为 如 果 age 大 于 2000， 它 就 已 经 大 于 100 了 
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你 可 以 选择 在 最 后 的 elif 语句 后 面 加 上 else 语句 。 在 这 种 情况 下 ， 保 证 至 少 一 
个 子 句 〈 且 只 有 一 个 ) 会 执行 。 如 果 每 个 让 和 elif 语句 中 的 条 件 都 为 False， 就 执行 
else 子 句 。 例 如 ， 让 我 们 使 用 这 、elif 和 else 子 句 重新 编写 Alicee 程序 。 


if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 
else: 
print('You are neither Alice nor a little kid.') 


图 2-8 展示 了 这 段 新 代 码 的 流程 图 ， 我 们 将 它 保 存 为 littleKid.py。 





















































name == 'Alice’ 真 print('Hi, Alice.) 





真 print('You are not Alice, kiddo.) 


print(You are neither Alice 
nora little kid.) 


图 2-8 前 面 littleKid.py 程序 的 流程 图 


在 英语 中 ， 这 类 控制 流 结构 会 使 得 :“ 如 果 第 一 个 条 件 为 真 ， 做 这 个 。 否 则 ， 
如 果 第 二 个 条 件 为 真 ， 做 那个 。 否 则 ， 做 另外 的 事 -” 如 果 你 同时 使 用 这 3 个 语句 ， 
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要 记 住 这 些 次 序 规 则 ， 避 免 图 2-7 中 那样 的 缺陷 。 首 先 ， 总 是 只 有 一 个 直 语 句 。 所 
有 需要 的 elif 语句 都 应 该 跟 在 if 语 句 之 后 。 其 次 ， 如 果 希 望 确保 至 少 一 条 子 句 被 执 
行 ， 在 最 后 加 上 else 语句 。 





























2.7.4 while 循环 语句 
利用 while 语句 ， 可 以 让 一 个 代码 块 一 遍 又 一 遍 的 执行 。 只 要 while 语句 的 条 
件 为 True，while 子 句 中 的 代码 就 会 执行 。 在 代码 中 ，while 语句 总 是 包含 下 面 几 






































部 分 : 
。 关键 字 ; 
。 条 件 ( 求 值 为 True 或 False 的 表达 式 ); 
。 冒号 ; 





。 从 新 行 开 始 ， 缩 进 的 代码 块 〈 称 为 while 子 句 )。 
可 以 看 到 ，while 语句 看 起 来 和 if 语句 类 似 。 不 同 之 处 是 它们 的 行为 。 让 子 名 
寺 束 时 ， 程 序 继续 执行 和 语句 之 后 的 语句 。 但 在 while 子 句 结束 时 ， 程 序 执行 跳 回 
| while 语句 开始 处 。while 子 句 常 被 称 为 “while 循环 ” 或 就 是 “循环 ” 

让 我 们 来 看 一 个 让 语句 和 一 个 while 循环 。 它 们 使 用 同样 的 条 件 ， 并 基于 该 条 
件 做 出 同样 的 动作 。 下 面 是 站 语句 的 代码 : 


spam = 0 

if spam < 5: 
print('Hello, world.') 
spam = spam + 1 


下 面 是 while 语句 的 代码 : 
spam = 0 
while spam < 5: 


print('Hello, world.') 
spam = spam + 1 


这 些 语句 类 似 , if 和 while 都 检查 spam 的 值 , 如 果 它 小 于 5， 就 打印 一 条 消息 。 
但 如 果 运 行 这 两 段 代码 ， 它 们 各 自 的 表现 非常 不 同 。 对 于 if 语句， 输出 就 是 "Hello， 
world."。 但 对 于 while 语句 ， 输 出 是 "Hello, world." 重 复 了 5 次 ! 看 一 看 这 两 段 代码 
的 流程 图 ， 图 2-9 和 2-10， 找 一 找 原因 。 
带 有 站 语句 的 代码 检查 条 件 ， 如 果 条 件 为 True， 就 打印 一 次 "Hello, world."。 带 
有 while 循环 的 代码 则 不 同 ， 会 打印 5 次 。 打 印 5 次 后 停 下 来 是 因为 ， 在 每 次 循环 
迭代 末尾 ，spam 中 的 整数 都 增加 1。 这 意味 着 循环 将 执行 5 次 , 然后 spam < 5 变 为 
False。 

在 while 循环 中 ， 条 件 总 是 在 每 次 “过 代 ”开始 时 检查 (也 就 是 每 次 循环 执行 
时 )。 如 果 条 件 为 True, 子 句 就 会 执行 , 然后, 再 次 检查 条 件 。 当 条 件 第 一 次 为 False 
寸 ，while 子 句 就 跳 过 。 
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真 


print(Hello world.) 


















2-9 证 语句 代码 的 流程 图 


真 
print(Hello world,) 


2-10 ”while 语句 代码 的 流程 图 


2.7.5 ”恼人 的 循环 


这 里 有 一 个 小 例子 ， 它 不 停 地 要 求 你 输入 “your name”( 就 是 这 个 字符 串 ， 而 
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不 是 你 的 名 字 )。 选 择 Fle 》 New Window， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 
下 代码 ， 将 文件 保存 为 yourName.py: 


© name = "" 

@ while name != 'your name': 
print('Please type your name.') 

© name = input() 

@ print('Thank you!') 


首先 ,程序 将 变量 name@ 设 置 为 一 个 空 字 符 串 。 这样 , 条 件 name != 'your name' 
就 会 求 值 为 True， 程 序 就 会 进入 while 循环 的 子 句 @。 

这 个 子 句 内 的 代码 要 求 用 户 输入 他 们 的 名 字 ， 然 后 赋 给 name 变量 上 日 。 因 为 这 是 语 
句 块 的 最 后 一 行 ， 所 以 执行 就 回 到 while 循环 的 开始 ， 重 新 对 条 件 求 值 。 如 果 name 中 的 
值 “ 不 等 于 ”字符 串 'your name'"， 那 么 条 件 就 为 Trne， 执 行将 再 次 进入 while 子 句 。 

但 如 果 用 户 输入 your name，while 循环 的 条 件 就 变 成 'your name' != 'your name'， 
它 求 值 为 False。 条 件 现在 是 False， 程 序 就 不 会 再 次 进入 while 循环 子 句 ， 而 是 跳 
过 它 ， 继 续 执行 程序 后 面 的 部 分 @。 图 2-11 展示 了 yourName.py 程序 的 流程 图 。 











































































































了 


name! = 'your name' print('Please type your name.) 
name = input() 























print(Thank you!’) 














2-11 ”yourName.py 程序 的 流程 图 
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现在 ,让 我 们 来 看 看 yourName.py 程 序 的 效果 。 按 F5 键 运行 它 , 输 几 次 your name 
之 外 的 东西 ， 然 后 再 提供 程序 想 要 的 输入 。 


Please type your name. 
Al 

Please type your name. 
Albert 

Please type your name. 
%#@#%* (~^&!!! 

Please type your name. 
your name 

Thank you! 


如 果 永 不 输入 your name， 那 么 循环 的 条 件 就 永远 为 False， 程 序 将 永远 问 















































下 去 。 这 里 ，inputO 调 用 让 用 户 输入 正确 的 字符 串 ， 以 便 让 程序 继续 。 在 其 他 
程序 ， 条 件 可 能 永远 没有 实际 变化 ， 这 可 能 会 出 问题 。 让 我 们 来 看 看 如 何 跳出 
循环 。 




























































































2.7.6 break 语句 
有 一 个 捷径 ， 让 执行 提前 跳出 while 循环 子 句 。 如 果 执 行 遇 到 break 语句 ， 就 
会 马上 退出 while 循环 子 句 。 在 代码 中 ，break 语句 仅 包 含 break 关键 字 。 
非常 简单 ,对 吗 ? 这 里 有 一 个 程序 , 和 前 面 的 程序 做 一 样 的 事情 ,但 使 用 了 break 
语句 来 跳出 循环 。 输 入 以 下 代码 ， 将 文件 保存 为 yourName2.py: 
© while True: 
print(' Please type your name.') 


@ name = input() 

© if name == 'your name ': 
9 

9 







































































break 
print(' Thank you!') 





第 一 行 @ 创 建 了 一 个 “无 限 循 环 ” 它 是 一 个 条 件 总 是 为 True 的 while 循环 。( 表 
达 式 True 总 是 求 值 为 True。) 程序 执行 将 总 是 进入 循环 ， 只 有 过 到 break 语句 执行 
时 才 会 退出 (“永远 不 ”退出 的 无 限 循环 是 一 个 常见 的 编程 缺陷 )。 

像 以 前 一 样 ， 程 序 要 求 用 户 输入 your name@。 但 是 现在 ， 虽 然 执 行 仍然 在 
while 循环 内 ， 但 有 一 个 让 语句 会 被 执行 目 ， 检 查 name 是 否 等 于 your name。 
如 果 条 件 为 True, break 语句 就 会 运行 @, 执行 就 会 跳出 循环 ， 转 到 print(Thank 
youl) 上 日。 和 否则， 包含 break 语句 的 让 语句 子 句 就 会 跳 过 ， 让 执行 到 达 while 循 
环 的 末尾 。 此 时 ， 程 序 执行 跳 回 到 while 语句 的 开始 @， 重 新 检查 条 件 。 因 为 
条 件 是 True， 所 以 执行 进入 循环 ， 再 次 要 求 用 户 输入 your name。 这 个 程序 的 流 
程 图 参见 图 2-12。 
运行 yourName2.py， 输 入 你 为 yourName.py 程序 输入 的 同样 文本 。 重 写 的 程序 
点 该 和 原来 的 程序 反应 相同 。 
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print( Please type your name') 





name== yourname 


print(Thank youl) 


2-12 带 有 无 限 循环 的 程序 的 流程 图 。 注 意 打 又 路 径 在 逻辑 上 
永远 不 会 发 生 为 循环 条 件 总 是 为 True 


2.7.7 ”continue 语句 





像 break 语句 一 样 ，continue 语句 用 于 循环 内 部 。 如 果 程 序 执行 
语句 ， 就 会 马上 跳 回 到 循环 开始 处 ， 重 



































行 遇 到 continue 
， 重 新 对 循环 条 件 求 值 (这 也 是 执行 到 达 循 环 末 
尾 时 发 生 的 事情 )。 
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IT 
训 




















让 我 们 用 continue 写 一 个 程序 ， 要 求 输入 名 字 和 口令 。 在 一 个 新 的 文件 编 有 
口中 输入 以 下 代码 ， 将 程序 保存 为 swordfish.py。 



































While True: 
print(' Who are you?') 
name = input() 
if name != 'Joe': 
continue 
print('Hello, Joe. What is the password? (It is a fish.)') 
password = input() 
if password == 'swordfish’': 
break 
print('Access granted.') 











如 果 用 户 输入 的 名 字 不 是 Joe@ ，continue 语句 @ 将 导致 程序 执行 跳 回 到 循环 开 
台 处 。 再 次 对 条 件 求 值 时 ， 执 行 总 是 进入 循环 ， 因 为 条 件 就 是 True。 如 果 执 行 通过 
了 让 语句 ， 用 户 就 被 要 求 输入 口令 @。 如 果 输 入 的 口令 是 swordfish，break 语句 运 

行 @， 执 行 跳 出 while 循环 ， 打 印 Access granted@。 否 则 ， 执 行 继续 到 while 循环 
的 末尾 ， 又 跳 回 到 循环 的 开始 。 这 个 程序 的 流程 图 参见 图 2-13。 


陷 在 无 限 循 环 中 ? 
如 果 你 运行 一 个 有 缺陷 的 程序 , 导致 陷 在 一 个 无 限 循环 中 , 那么 请 按 Ctrl-C。 
这 将 向 程序 发 送 KeyboardInterrupt 错误 ， 叶 致 它 立即 停止 。 试 一 下 ， 在 文件 编辑 
器 中 创建 一 个 简单 的 无 限 循 环 ， 将 它 保 存 为 infiniteloop.py。 

































































while True : 
print('Hello world!') 
如 果 运 行 这 个 程序 ， 它 将 永远 在 屏幕 上 打印 Hello world! 因为 while 语句 的 
条 件 总 是 True。 在 IDLE 的 交互 式 环境 窗口 中 ， 只 有 两 种 办 法 停止 这 个 程序 : 按 
下 Ctrl-C 或 从 菜单 中 选择 Shell 》 Restart Shell。 如 果 你 希望 马上 停止 程序 ， 即 使 
它 不 是 陷 在 一 个 无 限 循环 中 ，Ctrl-C 也 是 很 方便 的 。 


运行 这 个 程序 ， 提 供 一 些 输 入 。 只 有 你 声称 是 Joe， 它 才 会 要 求 输入 口令 。 一 
且 输 入 了 正确 的 口令 ， 它 就 会 退出 。 



























































Who are you? 
I'm fine, thanks. Who are you? 
Who are you? 


Joe 

Hello, Joe. What is the password? (It is a fish.) 
Mary 

Who are you? 

Joe 

Hello, Joe. What is the password? (It is a fish.) 
swordfish 


Access granted. 
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name != Joe' 


password == 'swordfish’ 


2-13 ”swordfish.py 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 执行 ， 因 为 循环 条 件 总 是 True 
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2.7.8 for 循环 和 range() 函 数 
在 条 件 为 True 时 ，while 循环 就 会 继续 循环 〈 这 是 它 的 名 称 的 























日 来 )。 但 如 果 你 














想 让 一 个 代码 块 执行 固定 次 数 ， 该 怎么 办 ?可 以 通过 for 循环 语句 和 range0 函 数 来 





实现 。 


“类 真 ” 和 “类 假 ” 的 值 


其 他 数据 类 型 中 的 某 些 值 ， 条 件 认 为 它们 等 价 于 True 和 False。 在 用 于 条 件 
时 ，0、0.0 和 '… ( 空 字 符 串 ) 被 认为 是 False， 其 他 值 被 认为 是 True。 例 如 ， 请 看 


下 面 的 程序 : 


name = "!" 

while not name:© 

print('Enter your name:') 

name = input() 

print('How many guests will you have?') 

numofGuests = int(input()) 

if numofGuests:@ 

print('Be sure to have enough room for all your guests.')® 
print('Done') 


如 果 用 户 输入 一 个 空 字 符 串 给 name， 那么 while 语句 的 条 件 就 会 是 True @， 
程序 继续 要 求 输入 名 字 。 如 果 numOfGuests 不 是 0 @, 那么 条 件 就 被 认为 是 True， 


程序 就 会 为 用 户 打 印 一 条 提醒 信息 目 。 
可 以 用 notname !='' 代 替 notname, 用 numOfGuests != 0 代替 
但 使 用 类 真 和 类 假 的 值 会 让 代码 更 容易 阅读 。 


在 代码 中 ，for 语句 看 起 来 像 for iin range(5): 这 样 ， 总 是 包含 以 
。 for 关键 字 ; 
。 一 个 变量 名 ; 
。 in 关键 字 ; 
。 调用 range0 方 法 ， 最 多 传 入 3 个 参数 ; 
。 冒号 ; 


。 从 下 一 行 开始 ， 缩 退 的 代码 块 ( 称 为 for 子 句 )。 


























numOfGuests, 


下 部 分 : 


让 我 们 创建 一 个 新 的 程序 ， 名 为 fiveTimes.py， 看 看 for 循环 的 效果 。 





print('My name is') 
for i in range(5): 
print('Jimmy Five Times (' + str(i) + ')') 














for 循环 子 句 中 的 代码 运行 了 5 次 。 第 一 次 运行 时 ， 变 量 i 被 设 为 0。 子 句 中 的 
print() 调 用 将 打印 出 Jimmy Five Times (0)。Python 完成 for 循环 子 句 内 所 有 代码 的 
一 次 迭代 之 后 ,执行 将 回 到 循环 的 顶部 ,for 语句 让 i 增加 1。 这 就 是 为 什么 range(5) 
导致 子 句 的 $ 次 迭代 ,i 分 别 被 设置 为 0、1、2、3、4。 变 量 i 将 递增 到 〈 但 不 包括 




















传递 给 range0 函 数 的 整数 。 图 2-14 展示 了 fiveTimes.py 程序 的 流程 
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print(My name is') 





print(Jimmy Five Times (‘+ str(i) + ")') 





foriin range (5) 


循环 结束 


2-14 ”fiveTimes.py 的 流程 图 














运行 这 个 程序 时 , 它 将 打印 5 次 Jimmy Five Times 和 i 的 值 ,然后 离开 for 循环 。 


My name is 

Jimmy Five Times (0 
Jimmy Five Times (1 
Jimmy Five Times (2 
Jimmy Five Times (3 
Jimmy Five Times (4) 


也 可 以 在 循环 中 使 用 continue 语句 。continue 语句 将 让 for 循环 变量 继续 下 一 个 
值 ， 就 像 程序 执行 已 经 到 达 循 环 的 末尾 并 返回 开始 一 样 。 实 际 上 ， 只 能 在 while 和 
for 循环 内 部 使 用 continue 和 break 语句 。 如 果 试 图 在 别处 使 用 这 些 语句 ，Python 将 
报错 。 
作为 for 循环 的 另 一 个 例子 ， 请 考虑 数学 家 高 斯 的 故事 。 当 高 斯 还 是 一 个 小 孩 
时 ， 老 师 想 给 全 班 同学 布置 很 多 计算 作业 。 老 师 让 他 们 从 0 加 到 100。 高 斯 想到 了 
一 个 聪明 办 法 ， 在 几 秒 钟 内 算出 了 答案 ， 但 你 可 以 用 for 循环 写 一 个 Python 程序 ， 
替 你 完成 计算 。 
© total = 0 
@ for num in range(101) : 


© total = total + num 
@ print(total) 


结果 应 该 是 5050。 程 序 刚 开始 时 ，total 变量 被 设 为 0。 然 后 for 循环 执行 100 
次 total = total + num。 当 循环 完成 100 次 迭代 时 ,0 到 100 的 每 个 整数 都 加 给 了 total。 


) 
) 
) 
) 
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这 时 ，total 被 打印 到 屏幕 上 。 即 使 在 最 慢 的 计算 机 上 ， 这 个 程序 也 不 用 1 秒 钟 就 能 
完成 计算 。 
(小 高 斯 想到 ， 有 50 对 数 加 起 来 是 100: 1 + 99,2 + 98,3 + 97..…... 直 到 49 + 51。 
因为 50 x 100 是 5000， 再 加 上 中 间 的 50， 所 以 0 到 100 的 所 有 数 之 和 是 5050。 
聪明 的 孩子 !) 


















































2.7.9 ”等 价 的 while 循环 
实际 上 可 以 用 while 循环 来 做 和 for 循环 同样 的 事 ，for 循环 只 是 更 简洁 。 让 我 
们 用 与 for 循环 等 价 的 while 循环 ， 重 写 fiveTimes.py。 


print(' My name is') 


























i=0 

while i < 5: 
print('Jimmy Five Times (' + str(i) + ')') 
i=i+l 








运行 这 个 程序 ， 输 出 应 该 和 使 用 for 循环 的 fiveTimes.py 程序 一 样 。 





2.7.10 ”range() 的 开始 、 停 止 和 步 长 参数 
某 些 函数 可 以 用 多 个 参数 调用 ， 参 数 之 间 用 逗号 分 开 ，range0 就 是 其 中 之 一 。 
这 让 你 能 够 改变 传递 给 range0 的 整数 , 实现 各 种 整数 序列 , 包括 从 0 以 外 的 值 开 始 。 


for i in range(12, 16): 
























































print(i) CE 
第 一 个 参数 是 for 循环 变量 开始 的 值 ， 第 二 个 参数 是 上 限 ， 但 不 包含 它 ， 也 就 
是 循环 停止 的 数字 。 
12 
13 


14 
15 


rangeO 函 数 也 可 以 有 第 三 个 参数 。 前 两 个 参数 分 别 是 起 始 值 和 终止 值 ， 第 三 个 
参数 是 “ 步 长 ”。 步 长 是 每 次 迭代 后 循环 变量 增加 的 值 。 


for i in range(0, 10, 2): 
print(i) 


所 以 调用 range(0, 10, 2) 将 从 0 数 到 838， 间隔 为 2。 










































































oo DA 上 mm 














在 为 for 循环 生成 序列 数据 方面 ，rangeO 函 数 很 灵活 。 举 例 来 说 ， 甚 至 可 以 用 
负数 作为 步 长 参数 ， 让 循环 计数 逐渐 减少 ， 而 不 是 增加 。 
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for i in range(5, -1, -1): 
print(i) 


运行 一 个 for 循环 ， 用 range(5, -1, -1) 来 打印 i， 结果 将 从 5 降 至 0。 
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2.8 导入 模块 


Python 程序 可 以 调用 一 组 基本 的 函数 ， 这 称 为 “内 建 函 数 ” 包括 你 见 到 过 的 
Print 、inputO0 和 lenO 函 数 。Python 也 包括 一 组 模块 ， 称 为 “标准 库 ”。 每 个 模块 都 
是 一 个 Python 程序 ， 包 含 一 组 相关 的 函数 ， 可 以 嵌入 你 的 程序 之 中 。 例 如 ，math 
模块 有 数学 运算 相关 的 函数 ，random 模块 有 随机 数 相关 的 函数 ， 等 等 。 
在 开始 使 用 一 个 模块 中 的 函数 之 前 , 必须 用 import 语句 导入 该 模块 。 在 代码 中 ， 
import 语句 包含 以 下 部 分 : 
。 import 关键 字 ; 
。 模块 的 名 称 ; 
。 可 选 的 更 多 模块 名 称 ， 之 间 用 逗号 隔 开 。 
在 导入 一 个 模块 后 ， 就 可 以 使 用 该 模块 中 所 有 很 酷 的 函数 。 让 我 们 试 一 试 
random 模块 ， 它 让 我 们 能 使 用 random.ranintO 函 数 。 
在 文件 编辑 器 中 输入 以 下 代码 ， 保 存 为 printRandom.py: 
import random 


for i in range(5): 
print(random.randint (1, 10)) 


如 果 运 行 这 个 程序 ， 输 出 看 起 来 可 能 像 这 样 : 




























































































































































































om 下 














random.randintO 函 数 调用 求 值 为 传递 给 它 的 两 个 整数 之 间 的 一 个 随机 整数 。 因 
为 randint0 属 于 random 模块 ， 必 须 在 函数 名 称 之 前 先 加 上 random.， 告 诉 python 在 
random 模块 中 寻找 这 个 函数 。 

下 面 是 import 语句 的 例子 ， 它 导入 了 4 个 不 同 的 模块 


import random, sys, os, math 


现在 我 们 可 以 使 用 这 4 个 模块 中 的 所 有 函数 。 本 书后 面 我 们 将 学 习 更 多 的 相关 内 容 。 
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from import 语句 
import 语句 的 另 一 种 形式 包括 from 关键 字 , 之 后 是 模块 名 称 ，import 关键 字 和 
一 个 星 号 ， 例 如 from random import *。 
使 用 这 种 形式 的 import 语句 , 调用 random 模块 中 的 函数 时 不 需要 random. 前 绥 。 
但 是 ， 使 用 完整 的 名 称 会 让 代码 更 可 读 ， 所 以 最 好 是 使 用 普通 形式 的 import 语句 。 

































































| 



































2.9 用 sys.exit0 提 前 结束 程序 

要 介绍 的 最 后 一 个 控制 流 概念 , 是 如 何 终止 程序 。 当 程序 执行 到 指令 的 底部 时 ， 
总 是 会 终止 。 但 是 ， 通 过 调用 sys.exit0 函 数 ， 可 以 让 程序 终止 或 退出 。 因 为 这 个 函 
数 在 sys 模块 中 ， 所 以 必须 先导 入 sys， 才 能 使 用 它 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 。 保 存 为 exitExample.py: 


import sys 






















































































while True: 
print('Type exit to exit.') 
response = input() 
if response == 'exit': 
sys.exit() 
print('You typed ' + response + '.') 


在 IDLE 中 运行 这 个 程序 。 该 程序 有 一 个 无 限 循环 ， 里 面 没有 break 语句 。 结 
束 该 程序 的 唯一 方式 ， 就 是 用 户 输入 exit， 导 致 sys.exit0 被 调用 。 如 果 response 等 
于 exit， 程 序 就 会 中 止 。 因 为 response 变量 由 inputO 函 数 赋值 ， 所 以 用 户 必 须 输入 
exit， 才 能 停止 该 程序 。 







































































2.10 小结 














通过 使 用 求 值 为 True 或 False 的 表达 式 〈 也 称 为 条 件 )， 你 可 以 编写 程序 来 决 
定 哪 些 代码 执行 ， 哪 些 代码 跳 过 。 可 以 在 循环 中 一 遍 又 一 遍地 执行 代码 ， 只 要 某 个 
条 件 求 值 为 Tue。 如果 需要 跳出 循环 或 回 到 开始 处 ，break 和 continue 语句 很 有 用 。 

这 些 控制 流 语句 让 你 写 出 非常 聪明 的 程序 。 还 有 男 一 种 类 型 的 控制 流 ， 你 可 以 
过 编写 自己 的 函数 来 实现 。 这 是 下 一 章 的 主题 。 
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2.11 习题 


1， 布尔 数据 类 型 的 两 个 值 是 什么 ? 如 何 拼写 ? 
2. 3 个 布尔 操作 符 是 什么 ? 
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3. 写 出 每 个 布尔 操作 符 的 真 值 表 (也 就 是 操作 数 的 每 种 可 能 组 合 ， 以 及 操作 
的 结果 )。 
4. 以 下 表达 式 求 值 的 结果 是 什么 ? 


(5 > 4) and (3 == 5) 

not (5 > 4) 

(5 > 4) or (3 == 5) 

not ((5 > 4) or (3 == 5)) 

(True and True) and (True == False) 
(not False) or (not True) 


5. 6 个 比较 操作 符 是 什么 ? 

6. 等 于 操作 符 和 赋值 操作 符 的 区 别 是 什么 ? 
7. 解释 什么 是 条 件 ， 可 以 在 哪里 使 用 条 件 。 
8. 识别 这 段 代 码 中 的 3 个 语句 块 : 


spam = 0 
if spam == 10: 
print('eggs') 
if spam > 5: 
print('bacon') 
else: 
print('ham') 
print('spam') 
print('spam') 


9. 编写 代码 ， 如 果 变 量 spam 中 存放 1， 就 打印 Hello， 如 果 变 量 中 存放 2， 就 
打印 Howdy， 如 果 变 量 中 存放 其 他 值 ， 就 打印 Greetings! 

10. 如 果 程 序 陷 在 一 个 无 限 循环 中 ， 你 可 以 按 什么 键 

11. break 和 continue 之 间 的 区 别 是 什么 ? 

12. 在 for 循环 中 , range(10)、range(0, 10) 和 range(0, 10, 1) 之 间 的 区 别 是 什么 ? 

13. 编写 一 小 段 程序 ， 利 用 for 循环 , 打印 出 从 1 到 10 的 数字 。 然 后 利用 while 
循环 ， 编 写 一 个 等 价 的 程序 ， 打 印 出 从 1 到 10 的 数字 。 

14. 如 果 在 名 为 spam 的 模块 中 ， 有 一 个 名 为 bacon0) 的 函数 ， 那 么 在 导入 spam 
模块 后 ， 如 何 调用 它 ? 

附加 题 : 在 因特网 上 查找 round0 和 abs0 函 数 ， 开 清楚 它们 的 作用 。 在 交互 式 
环境 中 尝试 使 用 它们 。 
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从 前 面 的 章节 中 ， 你 已 经 熟悉 了 print()、input0O 和 lenO 
函数 。Python 提供 了 这 样 一些 内 建 函数 ， 但 你 也 可 以 编写 自 
己 的 函数 。“ 函 数 ” 就 像 一 个 程序 内 的 小 程序 。 

为 了 更 好 地 理解 函数 的 工作 原理 ， 让 我 们 来 创建 一 
个 函数 。 在 文件 编辑 器 中 输入 下 面 的 程序 ， 保 存 为 
helloFunc.py: 































































































© def hello(): 

© print('Howdy!') 
print('Howdy!!!') 
print('Hello there.') 


@ hello() 





第 一 行 是 def 语句 @， 它 定义 了 一 个 名 为 hello0 的 函数 。def 语句 之 后 的 代码 块 
是 函数 体 @。 这 段 代码 在 函数 调用 时 执行 ， 而 不 是 在 函数 第 一 次 定义 时 执行 。 

函数 之 后 的 hello0 语 句 行 是 函数 调用 @。 在 代码 中 ， 函 数 调 用 就 是 函数 名 后 跟 
上 括号 ， 也 许 在 括号 之 间 有 一 些 参数 。 如 果 程 序 执 行 遇 到 这 些 调用 ， 就 会 跳 到 函数 
的 第 一 行 ， 开 始 执行 那里 的 代码 。 如 果 执 行 到 达 函 数 的 末尾 ， 就 回 到 调用 函数 的 那 
































































































































行 ， 继 续 像 以 前 一 样 向 下 执行 代码 。 
因为 这 个 程序 调用 了 3 次 hello0 函 数 ， 


行 这 个 程序 时 ， 输 出 看 起 来 像 这 样 : 
Howdy! 

Howdy!!! 

Hello there. 

Howdy! 

Howdy!!! 

Hello there. 

Howdy! 

Howdy!!! 

Hello there. 















































函数 的 一 个 主要 目的 就 是 将 需要 多 次 























义 ， 你 可 能 每 次 都 需要 复制 粘贴 这 些 代码 ， 
print('Howdy!') 

print('Howdy!!!') 

print('Hello there.') 

print('Howdy!') 

print('Howdy!!!') 

print('Hello there.') 

print('Howdy!') 

print('Howdy!!!') 

print('Hello there.') 











一 般 来 说 ， 我 们 总 是 
说 ,发现 了 一 个 缺陷 要 修复 )， 就 必须 i 


六 望 名 人 免 复 种 


p 














己 但 

















I 代码 ， 因 


所 以 函数 中 的 代码 就 执行 了 3 次 。 在 运 








执行 的 代码 放 在 一 起 。 如 
程序 看 起 来 可 能 会 像 这 检 


HE 会 
































旦 决定 要 更 
| 的 代码 。 





| = 


为 如 果 
要 修改 所 有 复 和 

















新 代码 (比如 
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随 着 你 获得 更 多 的 编程 经 验 ， 常 常会 





发 现 自 


,在 为 代码 “消除 重复 ”， 即 去 除 























E 复 或 复制 的 代码 。 消 除 重复 能 够 使 





3.1 def 语句 和 参数 
如 果 调 
































为 helloFunc2.py: 


© def hello(name): 

© print('Hello ' + name) 

© hello('Alice') 
hello('Bob') 


程 


] print0 或 len0 函 数 , 你 会 传 入 一 些 值 , 放 在 括号 之 间 , 在 这 里 称 为 “ 
数 ”。 也 可 以 自己 定义 接收 参数 的 函数 。 在 文件 多 


已 























序 更 短 、 更 易 读 、 更 容易 更 新 。 








参 


2 


这 个 例子 ， 将 它 保存 

















i 辑 器 中 输 

















如 果 运 行 这 个 程序 ， 输 出 看 起 来 像 这 样 : 





Hello Alice 
Hello Bob 














在 这 个 程序 的 hello0 函 数 定义 中 ， 有 











个 名 为 name 的 变 元 @ 。“ 交 元 ”是 一 个 























变量 ， 当 函数 被 调用 时 ， 参 数 就 存放 在 其 




















一 次 被 








44 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 


。hello0 函 数 条 周 用 时 ， 使 用 的 





参数 是 'Alice'@ 。 程 序 执行 i 




















语句 打印 出 的 内 容 @。 





3.2 


这 是 传 入 的 字符 串 的 长 度 。 
用 def 语句 创建 函数 时 
含 以 下 部 分 : 


下 面 的 程序 定义 了 一 个 函数 ， 它 根据 传 入 的 数字 参数 ， 返 回 一 个 不 同 的 字符 串 。 
文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 magic8Ball.py: 


关于 变 元 有 一 从 
失 了 。 例 如 前 
NameError， 因 








这 类 似 于 程序 结 
局 部 作 月 














F 特 殊 的 事情 值得 注意 : 保存 在 变 元 中 的 值 ， 在 函数 返回 
面 的 程序 ， 如 果 你 在 hello(Bob) 之 后 添加 printaname)， 程 序 会 报 
为 没有 名 为 name 的 变量 。 在 函数 调 
被 销毁 了 ， 所 以 printmame) 会 引用 一 个 不 存在 的 变量 name。 
的 变量 会 丢弃 。 在 本 章 稍 后 ， 当 我 们 探讨 函数 的 
域 时 ， 我 会 进一步 分 析 为 什么 会 这 样 。 

































































束 时 ， 程 序 - 








返回 值 和 return 语句 


入 该 函数 ， 变 量 name 自动 设 为 'Alice'， 就 是 被 print( 
后 就 丢 


] hello(Bob) 返 回 后 ， 这 个 变量 


如 果 调 用 len0 函 数 ， 并 向 它 传 入 像 Hello 这 样 的 参数 ， 函 数 调用 就 求 值 为 整数 5。 














一 般 来 说 ， 函 数 调 | 























return 关键 字 ; 
函数 应 该 返 


























的 值 或 表达 式 。 











] 求 值 的 结果 ， 称 为 函数 的 “返回 值 ”。 
， 可 以 用 return 语句 指定 应 该 返回 什么 值 。return 语句 包 


如 果 在 return 语句 中 使 用 了 表达 式 ， 返 回 值 就 是 该 表达 式 求 值 的 结果 。 例 如 ， 








© import random 














@ def getAnswer (answerNumber): 


© 


if answerNumber == 1: 

return 'It is certain' 
elif answerNumber == 2: 

return 'It is decidedly so' 
elif answerNumber == 3: 

return 'Yes’ 
elif answerNumber == 4 

return 'Reply hazy try again’' 
elif answerNumber == 5: 


elif answerNumber 


== 6: 


return 'Concentrate and ask again’' 


elif answerNumber 


== 7: 


return 'My reply is no’ 


elif answerNumber 


== 8: 


return 'Outlook not so good ， 


elif answerNumber 


==::93 


return 'Very doubtful' 


@ r= random.randint(1, 9) 


© fortune = getAnswer (r) 


在 





@ print(fortune) 
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在 这 个 程序 开始 时 ，Python 首先 导入 random 模块 @。 然 后 getAnswerO 函 数 被 
定义 @。 因为 函数 是 被 定义 (而 不 是 被 调用 ), 所 以 执行 会 跳 过 其 中 的 代码 。 接 下 来 ， 
random.randintO 函 数 被 调用 ， 带 两 个 参数 ，1 和 9@ .。 它 求 值 为 1 和 9 之 间 的 一 个 随 
机 整数 (包括 1 和 9)， 这 个 值 被 存在 一 个 名 为 的 变量 中 。 

getAnswer() 函 数 被 调用 ， 以 r 作为 参数 @。 程 序 执行 转移 到 getAnswer(O 函 数 的 
顶部 日 ，r 的 值 被 保存 到 名 为 answerNumber 的 变 元 中 。 然 后 ， 根 据 answerNumber 
中 的 值 ， 函 数 返 回 许多 可 能 字符 串 中 的 一 个 。 程 序 执行 返回 到 程序 底部 的 代码 行 ， 
即 原来 调用 getAnswerO 的 地 方 @@。 返 回 的 字符 串 被 赋 给 一 个 名 为 fortune 变量 ， 然 
后 它 又 被 传递 给 de 并 被 打印 在 屏幕 上 。 
请 注意 ， 因 为 可 以 将 返回 值 作为 参数 传递 给 另 一 个 函数 调用 ， 所 以 你 可 以 将 下 
面 3 行 代 码 
r= random.randint(1, 9) 


fortune = getAnswer (r) 
print(fortune) 


缩写 成 一 行 等 价 的 代码 : 


print(getAnswer(random.randint(1, 9))) 


记 住 ， 表 达 式 是 值 和 操作 符 的 组 合 。 函 数 调用 可 以 用 在 表达 式 中 ， 因 为 它 求 什 
为 它 的 返回 值 。 




















































































































































































































3.3 None 值 


在 Python 中 有 一 个 值 称 为 None， 它 表示 没有 值 。None 是 NoneType 数据 类 型 
的 唯一 值 〈 其 他 编程 语言 可 能 称 这 个 值 为 null、nil 或 undefined)。 就 像 布 尔 值 True 
和 False 一 样 ，None 必须 大 写 首 字母 N。 
如 果 你 希望 变量 中 存储 的 东西 不 会 与 一 个 真正 的 值 混淆 ， 这 个 没有 值 的 值 就 可 
能 有 用 。 有 一 个 使 用 None 的 地 方 就 是 printO 的 返回 值 。printO 函 数 在 屏幕 上 显示 文 
本 ， 但 它 不 需要 返回 任何 值 ， 这 和 len0 或 inputO 不 同 。 但 既然 所 有 函数 调用 都 需要 
求 值 为 一 个 返回 值 ， 那 么 print0 就 返回 None。 要 看 到 这 个 效果 ， 请 在 交互 式 环境 中 
输入 以 下 代码 。 


>>> Spam = print('Hello!') 
Hello! 
>>> None == spam 
True 

在 幕后 ， 对 于 所 有 没有 return 语句 的 函数 定义 ，Python 都 会 在 末尾 加 上 return 
None。 这 类 似 于 while 或 for 循环 隐 式 地 以 continue 语 名 结尾。 而且 ， 如 果 使 用 不 
带 值 的 return 语句 (也 就 是 只 有 return 关键 字 本 身 )， 那 么 就 返回 None。 
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3.4 ”关键 字 参 数 和 print() 




















大 多 数 参 数 是 由 它们 在 函数 调用 ! 





的 位 置 来 识别 的 ,例如 , random.randint(1, 10) 














与 random.randint(10, 1) 不 同 。 函 数 i 





周 用 





一 个 随机 整数 ， 因 为 第 一 个 参数 是 范 
random.randint(10, 1) 会 导致 错误 )。 
































random.randint(1, 10) 将 返回 1 到 10 之 间 的 

























































































用 的 下 界 ， 第 二 个 参数 是 范围 的 上 和 界 〈 而 






























































































































































但 是 ,“ 关 键 字 参数 ”是 由 函数 调用 时 加 在 它们 前 面 的 关键 字 来 识别 的 。 关 键 
字 参 数 通常 用 于 可 选 变 元 。 例 如 ，print0) 函 数 有 可 选 的 变 元 end 和 sep， 分 别 指定 在 
参数 末尾 打印 什么 ， 以 及 在 参数 之 间 打 印 什么 来 隔 开 它们 。 

如 果 运 行 以 下 程序 : 
print('Hello') 
print('World') 

输出 将 会 是 
Hello 
World 

这 两 个 字符 串 出 现在 独立 的 两 行 中 ， 因 为 printO 函 数 自动 在 传 入 的 字符 串 末 尾 
添加 了 换行 符 。 但 是 ， 可 以 设置 end 关键 字 参 数 ， 将 它 变 成 男 一 个 字符 串 。 例 如 ， 
如 果 程 序 像 这 样 : 
print('Hello', end='') 
print('World') 

输出 就 会 像 这 样 : 

HelloWorld 

输出 被 打印 在 一 行 中 ， 因 为 在 'Hello' 后 面 不 再 打印 换行 ,而 是 打印 了 一 个 空 
字符 串 。 如 果 需 要 禁用 加 到 每 一 个 printO 函 数 调用 末尾 的 换行 ， 

类 似 地 ， 如 果 向 printO 传 入 多 个 字符 串 值 ， 该 函数 就 会 自动 用 一 个 空格 分 隔 它 
们 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> print('cats', 'dogs', 'mice') 


cats dogs mice 


但 是 你 可 以 传 入 sep 关键 字 参 数 ， 
输入 以 下 代码 : 





替换 掉 默 认 的 分 隔 


字符 串 。 在 交互 式 环境 中 











>>> print('cats', 'dogs', 'mice', sep=',') 
cats,dogs,mice 
也 可 以 在 你 编写 的 函数 ! 






































可 以 指定 。 


添加 关键 字 参 数 ， 但 必须 先 在 接 下 来 的 两 章 中 学 习 列 
表 和 字典 数据 类 型 。 现 在 只 要 知道 ， 茶 些 函数 有 可 选 的 关键 字 参 数 ， 











在 函数 调用 时 





第 3 章 函数 47 


3.5 ”局 部 和 全 局 作用 域 


在 被 调用 函数 内 赋值 的 变 元 和 变量 ， 处 于 该 函数 的 “局 部 作用 域 ” 在 所 有 函 
数 之 外 赋值 的 变量 ， 属 于 “全 局 作用 域 ” 处 于 局 部 作用 域 的 变量 ， 被 称 为 “局 部 
变量 ” 处 于 全 局 作用 域 的 变量 ， 被 称 为 “全 局 变量 ”。 一 个 变量 必 是 其 中 一 种 ， 不 
能 既是 局 部 的 又 是 全 局 的 。 

可 以 将 “作用 域 ” 看 成 是 变量 的 容器 。 当 作用 域 被 销毁 时 ， 所 有 保存 在 该 作用 
域内 的 变量 的 值 就 被 丢弃 了 。 只 有 一 个 全 局 作用 域 ， 它 是 在 程序 开始 时 创建 的 。 如 
果 程 序 终 止 ， 全 局 作用 域 就 被 销毁 ， 它 的 所 有 变量 就 被 丢弃 了 。 否 则 ， 下 次 你 运行 
程序 的 时 候 ， 这 些 变 量 就 会 记 住 它们 上 次 运行 时 的 值 。 

一 个 函数 被 调用 时 , 就 创建 了 一 个 局 部 作用 域 。 在 这 个 函数 内 赋值 的 所 有 变量 ， 
存在 于 该 局 部 作用 域内 。 该 函数 返回 时 ， 这 个 局 部 作用 域 就 被 销毁 了 ， 这 些 变量 就 
丢失 了 。 下 次 调用 这 个 函数 , 局 部 变量 不 会 记得 该 函数 上 次 被 调用 时 它们 保存 的 值 。 
作用 域 很 重要 ， 理 由 如 下 : 

全 局 作用 域 中 的 代码 不 能 使 用 任何 局 部 变量 ; 

但 是 ， 局 部 作用 域 可 以 访问 全 局 变量 ; 
一 个 函数 的 局 部 作用 域 中 的 代码 ， 不 能 使 用 其 他 局 部 作用 域 中 的 变量 。 
如 果 在 不 同 的 作用 域 中 ， 你 可 以 用 相同 的 名 字 命 名 不 同 的 变量 。 也 就 是 说 ， 可 
以 有 一 个 名 为 spam 的 局 部 变量 ， 和 一 个 名 为 spam 的 全 局 变量 。 

Python 有 不 同 的 作用 域 ， 而 不 是 让 所 有 东西 都 成 全 局 变量 ， 这 是 有 理由 的 。 这 
样 一 来 ， 当 特定 函数 调用 中 的 代码 修改 变量 时 ， 该 函数 与 程序 其 他 部 分 的 交互 ， 只 
能 通过 它 的 参数 和 返回 值 。 这 缩小 了 可 能 导致 缺陷 的 代码 作用 域 。 如 果 程 序 只 包含 
全 局 变量 , 又 有 一 个 变量 赋值 错误 的 缺陷 , 那 就 很 难 追 踪 这 个 赋值 错误 发 生 的 位 置 。 
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它 可 能 在 程序 的 任何 地 方 赋值 ， 而 你 的 程序 可 能 有 几 百 到 几 千 行 ! 但 如 果 缺 陷 是 因 
为 局 部 变量 错误 赋值 ， 你 就 会 知道 ， 只 有 那 一 个 函数 中 的 代码 可 能 产生 赋值 错误 。 

虽然 在 小 程序 中 使 用 全 局 变量 没有 太 大 问题 ， 但 当 程序 变 得 越 来 越 大 时 ， 依 赖 
局 变量 就 是 一 个 坏 习 惯 。 


3.5.1 局 部 变量 不 能 在 全 局 作用 域内 使 用 
考虑 下 面 的 程序 ， 它 在 运行 时 会 产生 错误 : 


def spam(): 

eggs = 31337 
Spam() 
print(eggs) 










































































他 
遍 














如 果 运 行 这 个 程序 ， 输 出 将 是 : 


Traceback (most recent call last): 
File "C:/test3784.py", line 4, in <module> 
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pri 


nt (eggs) 


NameError: name 'eggs' is not defined 


发 


生 错 误 是 因为 ,，eggs 变量 只 属于 spam() 调 用 所 创建 的 局 部 作 】 



































行 从 spam 返回 后 ， 该 局 部 作用 域 就 被 销毁 了 ， 


序 试 图 





的 。 当 程序 执行 


这 就 是 








执行 print(eggs)， 









































在 全 局 作用 域 中 时 , 不 存在 局 

































































不 再 有 名 为 eggs 的 变量 。 所 以 当 程 
Python 就 报错 ， 说 eggs 没有 定义 。 你 想 想 看 ， 






































部 作用 域 , 所 以 不 会 有 任何 局 
为 什么 只 有 全 局 变量 能 用 于 全 局 作用 域 。 


3.5.2 ”局 部 作用 域 不 能 使 用 其 他 局 部 作用 域内 的 变量 


函数 调 


def Spa 


@Q@e 


def bac 
ham 








个 函数 被 调用 时 ， 就 创建 了 一 个 新 的 局 
用 时 的 情况 。 请 看 以 下 代码 : 














m(): 


eggs = 99 
bacon() 
print(eggs) 


on(): 
= 101 


@ eggs = 0 


© spam() 











人 在 程 请 




















部 作 





部 变量 eggs (与 spam() 的 局 部 作用 域 中 的 那个 变量 


当 
续 , 打 


EE 





bacon0 返 回 时 ， 


印 出 eggs 的 值 目 。 
为 99。 这 就 是 程序 的 打印 输出 。 
要 点 在 于 ， 一 个 函数 中 的 局 部 变量 完全 与 其 他 函数 ， 











开始 运行 时 ，spamO 函 数 被 调 
eggs@ 被 赋值 为 99。 然 后 bacon0) 函 数 被 调用 @， 创建 了 第 
域 能 同时 存在 。 在 这 个 新 的 局 部 作用 域 中 ， 局 部 变量 ham 被 赋值 为 101。 局 
时 不 同 ) 也 被 创建 @， 并 赋值 为 0。 
这 次 调用 的 局 部 作用 域 被 销毁 。 程序 执行 在 spam0 函 数 中 继 
因为 spamg0 调 用 的 局 部 作 / 

































































1]@， 创 建 了 一 个 局 部 作 





部 作用 域 ， 这 包括 一 人 


用 域 。 在 程序 执 





这 是 有 意义 


部 变量 。 


个 函数 被 男 一 个 




























































































] 域 仍然 存在 ，eggs 变量 


用 域 。 局 部 变量 
二 个 局 部 作用 域 。 多 个 局 


量 被 赋值 






































3.5.3 ”全 局 变量 可 以 在 局 部 作用 域 中 读 取 





,二 


请 


看 以 下 程序 : 

















def spam(): 
print (eggs) 


eggs = 
spam() 


42 


print(eggs) 























spam0 中 使 用 eggs 时 ， 
序 运 行 时 打印 出 42 的 原因 。 


因为 在 spam0 函 数 中 ， 没 有 变 元 名 为 eggs， 





Python 认为 它 是 对 全 























局 变量 eggs 的 引用 。 这 


的 局 部 变量 分 小 隔 开 来 。 





也 没有 代码 为 eggs 赋值 ， 所 以 当 
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3.5.4 名 称 相同 的 局 部 变量 和 全 局 变量 
要 想 生活 简单 ， 就 要 避免 局 部 变量 与 全 局 变量 或 其 他 局 部 变量 同名 。 但 在 技术 
上 , 在 Python 中 让 局 部 变量 和 全 局 变量 同名 是 完全 合法 的 。 为 了 看 看 实际 发 生 的 情 
况 ， 请 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 sameName.py: 
def Spam() : 


0 eggs = 'spam local' 
print(eggs) # prints 'spam local' 




















































































































def bacon(): 





© eggs = 'bacon local’ 
print(eggs) # prints 'bacon local’ 
spam() 


print(eggs) # prints 'bacon local’ 


©@ eggs = 'global' 
bacon() 
print(eggs) # prints 'global’ 


运行 该 程序 ， 输 出 如 下 : 


bacon local 
spam local 
bacon local 
global 


在 这 个 程序 中 , 实际 上 有 3 个 不 同 的 变量 , 但 令 人 迷惑 的 是 , 它们 都 名 为 eggs。 
这 些 变 量 是 : 
@ 名 为 eggs 的 变量 ， 存 在 于 spam0) 被 调用 时 的 局 部 作用 域 ; 
@ 名 为 eggs 的 变量 ， 存 在 于 bacon0 被 调用 时 的 局 部 作用 域 ; 
上 自 名 为 eggs 的 变量 ， 存 在 于 全 局 作用 域 。 
因为 这 3 个 独立 的 变量 都 有 相同 的 名 字 ， 追 踪 某 一 个 时 刻 使 用 的 是 哪个 变量 ， 
能 比较 麻烦 。 这 就 是 应 该 避免 在 不 同 作 用 域内 使 用 相同 变量 名 的 原因 。 































































































3.6 _ global 语句 
如 果 需 要 在 一 个 函数 内 修改 全 局 变量 ， 就 使 用 global 语句 。 如 果 在 函数 的 顶部 


人 
量 ， 所 以 不 要 用 这 个 名 字 创 建 一 个 局 部 变量 。” 例 如 ， 在 文件 编辑 器 中 输入 以 下 代 
码 ， 并 保存 为 sameName2.py: 


def spam(): 
global eggs 
eggs = 'spam’ 
















































































Q@ e 


eggs = global， 
Spam() 
print(eggs) 
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运行 该 程序 ， 最 后 的 print0 调 用 将 输出 : 


spam 


因为 eggs 在 spam0 的 顶部 被 声明 为 global@, 所 以 当 eggs 被 赋值 为 'spam' 时 @， 
赋值 发 生 在 全 局 作用 域 的 spam 上 。 没 有 创建 局 部 spam 变量 。 
有 4 条 法 则 ， 来 区 分 一 个 变量 是 处 于 局 部 作用 域 还 是 全 局 作用 域 : 

1. 如 果 变 量 在 全 局 作用 域 中 使 用 《〈 即 在 所 有 函数 之 外 )， 它 就 总 是 全 局 变量 。 

2. 如 果 在 一 个 函数 中 ， 有 针对 该 变量 的 global 语句 ， 它 就 是 全 局 变量 。 

3. 和 否则， 如 果 该 变量 用 于 函数 中 的 赋值 语句 ， 它 就 是 局 部 变量 。 

4. 但 是 ， 如 果 该 变量 没有 用 在 赋值 语句 中 ， 它 就 是 全 局 变量 。 

为 了 更 好 地 理解 这 些 法 则 ， 这 里 有 一 个 例子 程序 。 在 文件 编辑 器 中 输入 以 下 代 
码 ， 并 保存 为 sameName3.py: 


def spam(): 
0 global eggs 
eggs = 'spam' # this is the global 





































































































































































































def bacon(): 

© eggs = 'bacon' # this is a local 
def ham(): 

© print(eggs) # this is the global 


eggs = 42 # this is the global 
spam() 
print(eggs) 

在 spam( 〇 函数 中 ，eggs 是 全 局 eggs 变量 ， 因 为 在 函数 的 开始 处 ， 有 针对 eggs 
变量 的 global 语句 @。 在 bacon0 中 ，eggs 是 局 部 变量 ， 因 为 在 该 函数 中 有 针对 它 的 
赋值 语句 @。 在 ham0 中 @，eggs 是 全 局 变量 ， 因 为 在 这 个 函数 中 ， 既 没有 赋值 语 
句 ， 也 没有 针对 它 的 global 语句 。 如 果 运 行 sameName3.py， 输 出 将 是 : 


























lm 






















































































Spam 
在 一 个 函数 中 ， 一 个 变量 要 么 总 是 全 局 变量 ， 要 么 总 是 局 部 变量 。 函 数 中 的 代码 
































没有 办 法 先 使 用 名 为 eggs 的 局 部 变量 ， 稍 后 又 在 同一 个 函数 中 使 用 全 局 eggs 变量 。 
如 果 想 在 一 个 函数 中 修改 全 局 变量 中 存储 的 值 ， 就 必须 对 该 变量 使 用 global 
语句 。 
在 一 个 函数 中 , 如 果 试 图 在 局 部 变量 赋值 之 前 就 使 用 它 , 像 下 面 的 程序 这 样 , Python 
就 会 报错 。 为 了 看 到 效果 ， 请 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 sameName4.py: 


def Spam() : 
print(eggs) # ERROR! 
0 eggs = 'spam local' 















































































































































@ eggs = 'global' 
spam() 





运行 前 面 的 程序 ， 会 产生 出 错 信 息 。 
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Traceback (most recent call last): 
File "C:/test3784.py", line 6, in <module> 
spam() 
File "C:/test3784.py", line 2, in spam 
print(eggs) # ERROR! 
UnboundLocalError: local variable 'eggs' referenced before assignment 


发 生 这 个 错误 是 因为 , Python 看 到 spamgO 函 数 中 有 针对 eggs 的 赋值 语句 @， 因 
此 认为 eggs 变量 是 局 部 变量 。 但 是 因为 print(eggs) 的 执行 在 eggs 赋值 之 前 ， 局 部 变 
量 eggs 并 不 存在 。Python 不 会 退回 到 使 用 全 局 eggs 变量 @。 




































































到 目前 为 止 ， 在 Python 程序 中 过 到 错误 ， 或“ 异常” 意味 着 整个 程序 骨 演 。 
你 不 希望 这 发 生 在 真实 世界 的 程序 中 。 相 反 ， 你 希望 程序 能 检测 错误 ， 处 理 它们 ， 
然后 继续 运行 。 

例如 ， 考 虑 下 面 的 程序 ， 它 有 一 个 “除数 为 零 ” 的 错误 。 打 开 一 个 新 的 文件 编 
辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 zeroDivide.py: 


def spam(divideBy): 
return 42 / divideBy 












































NS 





























print(spam( 
print(spam( 
print(spam( 

( 


)) 

2)) 

)) 
print(spam(1) 


2 
1 
0 
Spa 人) 一 = 

我 们 已 经 定义 了 名 为 spam 的 函数 ， 给 了 它 一 个 变 元 ， 然 后 打印 出 该 函数 带 各 
种 参数 的 值 ， 看 看 会 发 生 什 么 情况 。 下 面 是 运行 前 面 代码 的 输出 : 









































3.5 
Traceback (most recent call last): 
File "C:/zeroDivide.py", line 6, in <module> 
print(spam(0)) 
File "C:/zeroDivide.py", line 2, in spam 
return 42 / divideBy 
ZeroDivisionError: division by zero 


当 试 图 用 一 个 数 除 以 零 时 ， 就 会 发 生 ZeroDivisionError。 根 据 错 误 信 息 中 给 
的 行 号， 我 们 知道 spam0 中 的 return 语句 导致 了 一 个 错误 。 


函数 作为 “黑金 ” 
通常 ， 对 于 一 个 函数 ， 你 要 知道 的 就 是 它 的 输入 值 ( 变 元 ) 和 输出 值 。 






































LC 























你 并 非 总 是 需要 加 重 自己 的 负担 ， 和约 代 二 了 是 ` 样 工作 的 。 
如 果 以 这 种 高 层 的 方式 来 思考 函 9 数 ， 通常 大 家 会 说 ， 你 函数 看 成 是 一 
0 


这 个 思想 是 现代 编程 的 基础 。 本 书后 面 的 章节 将 向 你 展示 一 些 模 块 ， 其 中 
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的 函数 是 由 其 他 人 编写 的 。 尽 管 你 在 好 奇 的 时 候 也 可 以 看 一 看 源 代 码 ， 但 为 了 
能 使 用 它们 ， 你 并 不 需要 知道 它们 是 如 何 工 作 的 。 而 且 ， 因 为 鼓励 在 编写 函数 
时 不 使 用 全 局 变量 ， 你 通常 也 不 必 担 心 函 数 的 代码 会 与 程序 的 其 他 部 分 发 生 交 
又 影响 。 


错误 可 以 由 try 和 except 语句 来 处 理 。 那 些 可 能 出 错 的 语句 被 放 在 try 子 句 中 。 
如 果 错 误 发 生 ， 程 序 执行 就 转 到 接 下 来 的 except 
可 以 将 前 面 除数 为 零 的 代码 放 在 一 个 try 子 句 中 ， 让 except 子 句 包含 代码 ， 来 
处 理 该 错误 发 生 时 应 该 做 的 事 。 
def spam(divideBy): 
try: 
return 42 / divideBy 


except ZeroDivisionError: 
print('Error: Invalid argument.') 






































print(spam(2 
print(spam(1 
print(spam(0 
print(spam(1 

如 果 在 try 子 句 中 的 代码 导致 一 个 错误 ， 程 序 执行 就 立即 转 到 except 子 句 的 代 
码 。 在 运行 那些 代码 之 后 ， 执 行 照常 继续 。 前 面 程序 的 输出 如 下 : 

21.0 

3.5 

Error: Invalid argument , 


None 
42.0 


请 注意 ， 在 函数 调用 中 的 try 语句 块 中 ， 发 生 的 所 有 错误 都 会 被 捕捉 。 请 考虑 
以 下 程序 ， 它 的 做 法 不 一 样 ， 将 spam0 调 用 放 在 语句 块 中 : 


def spam(divideBy): 
return 42 / divideBy 




























































































try: 
print(spam(2)) 
print(spam(12)) 
print(spam(0)) 
print(spam(1)) 
except ZeroDivisionError: 
print('Error: Invalid argument.') 


该 程序 运行 时 ， 输 出 如 下 : 
21. 0 


3.5 
Error: Invalid argument. 


print(spam(1)) 从 未 被 执行 是 因为 ， 一 旦 执行 跳 到 except 子 句 的 代码 ， 就 不 会 回 
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到 try 子 句 。 它 会 继续 照常 向 下 执行 。 


3.8 一 个 小 程序 : 猜 数字 


到 目前 为 止 ， 前 面 展 示 的 小 例子 适合 于 介绍 基本 概念 。 现 在 让 我 们 看 一 看 ， 如 
何 将 所 学 的 知识 综合 起 来 ， 编 写 一 个 更 完整 的 程序 。 在 本 方 中 ， 我 将 展示 一 个 简单 
的 猪 数 字 游 戏 。 在 运行 这 个 程序 时 ， 输 出 看 起 来 像 这 样 : 
I am thinking of a number between 1 and 20. 
Take a guess. 
10 


Your guess is too low. 
Take a guess. 
























































Your guess is too low. 
Take a guess. 


Your guess is too high. 
Take a guess. 


Good job! You guessed my number in 4 guesses! 


在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 guessTheNumber.py: 


# This is a guess the number game. 

import random 

secretNumber = random.randint(1, 20) 

print('I am thinking of a number between 1 and 20.') 








# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 
guess = int(input()) 


if guess < secretNumber: 
print('Your guess is too low.') 
elif guess > secretNumber: 
print('Your guess is too high.') 


else: 
break # This condition is the correct guess! 
if guess == secretNumber: 
print('Good job! You guessed my number in ' + str(guessesTaken) + ' guesses!') 


else: 
print('Nope. The number I was thinking of was ' + str(secretNumber)) 


让 我 们 逐 行 来 看 看 代码 ， 从 头 开始 。 
# This is a guess the number game . 


import random 
secretNumber = random.randint(1, 20) 


首先 ， 代 码 顶 部 的 一 行 注 释 解 释 了 这 个 程序 做 什么 。 然 后 ， 程 序 导 入 了 模块 
random， 以 便 能 用 random.randintO 函 数 生 成 一 个 数字 ， 让 用 户 来 猜 。 返 回 值 是 一 个 
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1 到 20 之 间 的 随机 整数 ， 保 存在 变量 secretNumber 中 。 


print('I am thinking of a number between 1 and 20.') 











# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 
guess = int(input()) 


程序 告诉 玩家 ， 它 有 了 一 个 秘密 数字 ， 并 且 给 玩家 6 次 猜测 机 会 。 在 for 循环 
中 ， 代 码 让 玩家 输入 一 次 猜测 ， 并 检查 该 猜测 。 该 循环 最 多 迭代 6 次 。 循 环 中 发 
生 的 第 一 件 事情 ， 是 让 玩家 输入 一 个 猜测 数字 。 因 为 input0 返 回 一 个 字符 串 ， 所 
以 它 的 返回 值 被 直接 传递 给 int0， 它 将 字符 串 转 变 成 整数 。 这 保存 在 名 为 guess 
的 变量 中 。 

if guess < SecretNumber : 
print('Your guess is too low.') 


elif guess > secretNumber: 
print('Your guess is too high.') 








































































































































































































这 几 行 代码 检查 该 猪 测 是 小 于 还 是 大 于 那个 秘密 数字 。 不 论 哪 种 情况 ， 都 在 屏 
幕 上 打印 提示 。 
else: 


break # This condition is the correct guess! 


如 果 该 猜测 既 不 大 于 也 不 小 于 秘密 数字 ， 那 么 它 就 一 定 等 于 秘密 数字 ， 这 时 你 
希望 程序 执行 跳出 for 循环 。 
if guess == secretNumber: 

print('Good job! You guessed my number in ' + str(guessesTaken) + ' guesses!') 


else: 
print('Nope. The number I was thinking of was ' + str(secretNumber)) 


在 for 循环 后 ， 前 面 的 让...else 语句 检查 玩家 是 否 正 确 地 猜 到 了 该 数字 ， 并 将 相 
应 的 信息 打印 在 屏幕 上 。 不 论 哪 种 情况 ， 程 序 都 会 打印 一 个 包含 整数 值 的 变量 
(guessesTaken 和 secretNumber)。 因 为 必须 将 这 些 整 数值 连接 成 字符 串 ， 所 以 它 将 
这 些 变量 传递 给 str0) 函 数 ， 该 函数 返回 这 些 整数 值 的 字符 串 形式 。 现 在 这 些 字符 串 
可 以 用 + 操作 符 连接 起 来 ， 最 后 传递 给 print0 函 数 调用 。 









































































































































3.9 小结 























函数 是 将 代码 逻辑 分 组 的 主要 方式 。 因 为 函数 中 的 变量 存在 于 它们 自己 的 局 部 
作用 域内 ， 所 以 一 个 函数 中 的 代码 不 能 直接 影响 其 他 函数 中 变量 的 值 。 这 限制 了 哪 
些 代码 才能 改变 变量 的 值 ， 对 于 调试 代码 是 很 有 帮助 的 。 

函数 是 很 好 的 工具 ， 帮 助 你 组 织 代码 。 你 可 以 认为 他 们 是 黑 盒 。 它 们 以 参数 的 












































三 
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形式 接收 输入 ， 以 返回 值 的 形式 产生 输出 。 它 们 内 部 的 代码 不 会 影响 其 他 函数 中 的 


上 上 一 
2 
变量 。 
































在 前 面 几 章 中 ,一 个 错误 就 可 能 导致 程序 骨 溃 。 在 本章 中 , 你 学 习 了 try 和 except 





语句 ， 它 1 


3.10 ”习题 











] 在 检测 到 错误 时 会 运行 代码 。 这 让 程序 在 面 对 常 见 错误 时 更 有 灵活 性 。 











.为 什么 在 程序 中 加 入 函数 会 有 好 处 ? 

， 函数 中 的 代码 何 时 执行 : 在 函数 被 定义 时 ， 还 是 在 函数 被 调用 时 ? 
.什么 语句 创建 一 个 函数 ? 

一 个 函数 和 一 次 函数 调用 有 什么 区 别 ? 

Python 程序 中 有 多 少 全 局 作用 域 ? 有 多 少 局 部 作用 域 ? 






































MD oo ~ 下 wm 上 wmDPPD 一 











当 函 数 调用 返回 时 ， 局 部 作用 域 中 的 变量 发 和 后 了 什么 ? 
. 什么 是 返回 值 ? 返回 值 可 以 作为 表达 式 的 一 部 分 吗 ? 
如 果 函 数 没 有 返回 语句 ， 对 它 调用 的 返回 值 是 什么 ? 
.如 何 强制 函数 中 的 一 个 变量 指 的 是 全 局 变量 ? 
10. None 的 数据 类 型 是 什么 ? 



















































































11. import areallyourpetsnamederic 语句 做 了 什么 ? 


12. 如 果 在 名 为 spam 的 模块 中 ， 有 一 个 名 为 bacon0) 的 函数 ， 在 引入 spam 后 























~ 





如 何 调 用 它 ? 
13. 如 何 防止 程序 在 遇 到 错误 时 崩溃 ? 
14. try 子 句 中 发 生 了 什么 ? except 子 句 中 发 生 了 什么 ? 


3.11 实践 项 日 



































作为 实践 ， 请 编写 程序 完成 下 列 任务 。 














3.11.1 Collatz 序列 





编写 
那么 collatz 
印 并 返回 3 


























个 名 为 collatz0 的 函数 , 它 有 一 个 名 为 number 的 参数 。 如果 参数 是 偶数 ， 
0 就 打印 出 number /2， 并 返回 该 值 。 如 果 number 是 奇数 ，collatz0 就 打 


*number+ 1。 
































写 一 个 程序 ， 让 用 户 输 入 一 个 整数 ， 并 不 断 对 这 个 数 调用 collatz0， 直 











到 水 数 返 所 

















值 1〈( 令 人 惊奇 的 是 ， 这 个 序列 对 于 任何 整数 都 有 效 ， 利 用 这 个 序列 ， 



































你 迟早 会 得 到 1! 既 使 数学 家 也 不 能 确定 为 什么 。 你 的 程序 在 研究 所 谓 的 “Collatz 

















序列 ” 它 有 时 候 被 称 为 “最 简单 的 、 不 可 能 的 数学 问题 ”)。 
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记得 将 input0 的 返回 值 用 int() 函 数 转 成 一 个 整数 ， 否 则 它 会 是 一 个 字符 串 。 








提示 如 果 number % 2 == 0， 整 数 number 就 是 偶数 ， 如 果 number % 2==1， 它 
就 是 奇数 。 





这 个 程序 的 输出 看 起 来 应 该 像 这 样 : 


Enter number: 





3.11.2 ”输入 验证 
在 前 面 的 项 目 中 添加 try 和 except 语句 ， 检 测 用 户 是 否 输入 了 一 个 非 整数 的 字 
符 串 。 正 常情 况 下 ，intO 函 数 在 传 入 一 个 非 整数 字符 串 时 ， 会 产生 ValueError 错误 ， 
比如 int(puppy)。 在 except 子 句 中 ， 向 用 户 输出 一 条 信息 ， 告 诉 他 们 必须 输入 一 个 
整数 。 
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#4 = 


列 表 











在 你 能 够 开始 编写 程序 之 前 ， 还 有 一 个 主题 需要 理解 ， 那 
就 是 列表 数据 类 型 及 元 组 。 列 表 和 元 组 可 以 包含 多 个 值 ， 这 样 
编写 程序 来 处 理 大 量 数据 就 变 得 更 容易 。 而 且 ， 由 于 列表 本 身 
又 可 以 包含 其 他 列表 ， 所 以 可 以 用 它们 将 数据 安排 成 层次 结构 。 

本 章 将 探讨 列表 的 基础 知识 。 我 也 会 讲授 关于 方法 的 内 
容 。 方 法 也 是 函数 ， 它 们 与 特定 数据 类 型 的 值 绑 定 。 然 后 我 会 
简单 介绍 类 似 列表 的 元 组 和 字符 串 数 据 类 型 ， 以 及 它们 与 列表 
值 的 比较 。 下 一 章 将 介绍 字典 数据 类 型 。 
















































































































































































4.1 列表 数据 类 型 


“列表 ”是 一 个 值 ， 它 包含 多 个 字 构 成 的 序列 。 术 语 “ 列 表 值 ” 指 的 是 列表 本 
身 ( 它 作为 一 个 值 ， 可 以 保存 在 变量 中 ， 或 传递 给 函数 ， 像 所 有 其 他 值 一 样 )， 而 
不 是 指 列表 值 之 内 的 那些 值 。 列 表 值 看 起 来 像 这 样 : ['cat', 'bat','rat', 'elephant]。 就 
像 字符 串 值 用 引号 来 标记 字符 串 的 起 止 一 样 , 列表 用 左 方 括号 开始 , 右 方 括号 结束 ， 
即 口 。 列表 中 的 值 也 称 为 “ 表 项 ” 表 项 用 逗号 分 隔 ( 就 是 说 , 它们 是 “逗号 分 隔 的 ”)。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 

















































































































>>> [1, 2, 3] 
[1，2，3] 
>>> ['cat', 'bat', 'rat', 'elephant'] 
['cat', 'bat', 'rat', 'elephant'] 
>>> ['hello', 3.1415, True, None, 42] 
['hello', 3.1415, True, None, 42] 

© >>> spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> spam 
['cat', 'bat', 'rat', 'elephant'] 


spam 变量 @ 仍 然 只 被 赋予 一 个 值 : 列表 值 。 但 丈 
个 空 列 表 ， 不 包含 任何 值 ， 类 似 于 空 字符 串 ”。 
































二 


表 值 本 身 包 含 多 个 值 。[] 是 一 

















4.1.1 用 下 标 取得 列表 中 的 单个 值 
假定 列表 ['cat', 'bat', 'rat', 'elephant] 保 存在 名 为 spam 的 变量 中 。Python 代码 spam[0] 

将 求 值 为 cat'，spam[1] 将 求 值 为 bat, 依 此 类 推 。 列表 后 面 方 插 号 内 的 整数 被 称 为 “下 

标 ?。 列 表 中 第 一 个 值 的 下 标 是 0， 第 二 个 值 的 下 标 是 1， 第 三 个 值 的 下 标 是 2， 依 此 

类 推 。 图 4-1 展示 了 一 个 赋 给 spam 的 列表 值 ， 以 及 下 标 表 达 式 的 求 值 结果 。 


spam = ["cat", "bat", "rat", "elephant"] 


> i 


spam[0] spam[1] spam[2] spam[3] 
4-1 一 个 列表 值 保存 在 spam 变量 中 ， 展 示 了 每 个 下 标 指向 哪个 值 
例如 ， 在 交互 式 环 境 中 输入 以 下 表达 式 。 开 始 将 列表 赋 给 变量 spam。 


>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> spam[0] 

'cat' 

>>> spam[1] 

'bat' 

>>> spam[2] 

“Pat 

>>> Spam[3] 

“elephant 

>>> ['cat', 'bat', 'rat', 'elephant'][3] 
‘elephant' 

>>> 'Hello ' + spam[0] 

'Hello cat' 

>>> 'The ' + Spam[1] + ' ate the ' + spam[0] + '.' 
"The bat ate the cat.’ 


请 注意 ， 表达 式 'Hello '+ spam[0] @ 求 值 为 Hello '+ 'cat'"， 因 为 spam[0] 求 值 为 字 
符 串 'cat。 这 个 表达 式 也 因此 求 值 为 字符 串 'Hello cat'@。 
如 果 使 用 的 下 标 超出 了 列表 中 值 的 个 数 ，Python 将 给 出 IndexError 出 错 信 息 。 


>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> spam[10000] 
Traceback (most recent call last): 
File "<pyshell#9>", line 1, in <module> 
spam[10000] 
IndexError: list index out of range 
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下 标 只 能 是 整数 ， 不 能 是 浮 点 值 。 下 面 的 例子 将 导致 TypeError 错误 : 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 

>>> spam[1] 

'bat' 

>>> spam[1.0] 

Traceback (most recent call last): 

File "<pyshell#13>", line 1, in <module> 

spam[1.0] 

TypeError: list indices must be integers, not float 

>>> spam[int(1.0)] 

"bat 














列表 也 可 以 包含 其 他 列表 值 。 这 些 列表 的 列表 中 的 值 ， 可 以 通过 多 重 下 标 来 访 
问 ， 像 这 样 : 
>>> Spam = [['cat', 'bat'], [10, 20, 30, 40,50]] 
>>> spam[0] 
['cat', 'bat'] 
>>> spam[0][1] 
'bat' 














>>> spam[1][4] 
50 


第 一 个 下 标 表明 使 用 哪个 列表 值 ， 第 二 个 下 标 表明 该 列表 值 中 的 值 。 例 如 ， 
spam[0][1] 打 印 出 'bat， 即 第 一 个 列表 中 的 第 二 个 值 。 如 果 只 使 用 一 个 下 标 ， 程 序 将 
打印 出 该 下 标 处 的 完整 列表 值 。 















































4.1.2 负数 下 标 
虽然 下 标 从 0 开始 并 向 上 增长 ,但 也 可 以 用 负 整 数 作为 下 标 。 整 数值 -1 指 的 是 
列表 中 的 最 后 一 个 下 标 ，-2 指 的 是 列表 中 倒数 第 二 个 下 标 ， 以 此 类 推 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 

>>> spam[-1] 

‘elephant' 

>>> spam[-3] 

'bat' 

>>> 'The ' + spam[-1] + ' is afraid of the ' + Spam[-3] + '." 
‘The elephant is afraid of the bat.' 




















4.1.3 ”利用 切片 取得 子 列表 

就 像 下 标 可 以 从 列表 中 取得 单个 值 一 样 ,“ 切 片 ” 可 以 从 列表 中 取得 多 个 值 ， 
结果 是 一 个 新 列表 。 切 片 输入 在 一 对 方 括号 中 ， 像 下 标 一 样 ， 但 它 有 两 个 冒号 分 隔 
的 整数 。 请 注意 下 标 和 切片 的 不 同 。 
。 spam[2] 是 一 个 列表 和 下 标 〔 一 个 整数 )。 
。 spam[1:4] 是 一 个 列表 和 切片 (两 个 整数 )。 


在 一 个 切片 中 ， 第 一 个 整数 是 切片 开始 处 的 下 标 。 第 二 个 整数 是 切片 结束 处 的 
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下 标 。 切 片 向 上 增长 ， 直 至 第 
表 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['cat', 
>>> spam[0:4] 
['cat', 'bat', 
>>> spam[1:3] 
['bat', 'rat’' 
>>> spam[0:-1] 
['cat', 'bat', 




















'bat', 'rat', 'elephant'] 


'rat', 'elephant'] 


'rat'] 








作为 快捷 方法 ， 你 可 以 省 略 切片 中 冒号 两 边 的 一 个 下 标 或 两 个 下 标 。 省 








个 下 标的 值 ， 但 不 包 扣 

















个 下 标 相 当 于 使 用 0， 或 列表 的 开始 。 省 略 第 二 

















味 着 分 片 直至 列 











>>> Spam = ['cat', 
>>> spam[:2] 
['cat', 'bat'] 
>>> spam[1:] 
['bat', 'rat', 
>>> spam[:] 
['cat', 'bat', 


'bat', 'rat', 'elephant'] 
"elephant '] 


Pat' ， 'elephant'] 


4.1.4 用 len() 取 得 列表 的 长 度 
len0 函 数 将 返回 传递 给 它 的 列表 
数 一 样 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['cat', 
>>> len(spam) 
3 








| 























'dog',， 'moose'] 


4.1.5 用 下 标 改变 列表 中 的 值 





个 下 标 相 当 于 使 用 列表 
的 末尾 。 在 交互 式 环境 中 输入 以 下 代码 : 


值 的 个 数 ， 就 像 它 能 计算 字符 上 








一 般 情 况 下 ， 赋 值 语句 左边 是 一 个 变量 名 ， 就 像 spam = 4。 但 是 ， 也 可 以 使 ) 








的 长 度 ， 


5 它 。 切 片 求 值 为 一 个 新 的 列 















































列表 的 下 标 来 改变 下 标 处 的 值 。 例 如 ，spam[1] = 'aardvark' 意 味 着 “将 列表 spam 下 














标 1 处 的 值 赋值 为 字符 串 'aardvark'。 在 交互 式 环境 ! 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> Spam[1] = 'aardvark' 

>>> spam 

['cat', 'aardvark', 'rat', 'elephant'] 

>>> spam[2] = spam[1] 

>>> spam 

['cat', 'aardvark', 'aardvark', 'elephant'] 
>>> spam[-1] = 12345 

>>> spam 

['cat', 'aardvark', 'aardvark', 12345] 


4.1.6 ”列表 连接 和 列表 复制 














+ 操作 符 可 以 连接 两 个 列表 ， 得 到 一 个 新 列表 ， 就 像 它 将 两 个 字符 
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输入 以 下 代码 : 


Ud 














个 新 字符 串 一 样 。* 操 作 符 可 以 用 于 一 个 列表 和 一 个 整数 ， 实 现 列表 的 复制 。 在 交 
互 式 环 境 中 输入 以 下 代码 : 

















EX 
>>> spam = [1，2，3] 

>>> Spam = spam + ['A', 'B', 'C'] 

>>> spam 

[1, 2, 3，'A'，'B',，'C'] 


4.1.7 用 del 语句 从 列表 中 删除 值 
del 语句 将 删除 列表 中 下 标 处 的 值 ， 表 中 被 删除 值 后 面 的 所 有 值 ， 都 将 向 前 移 
动 一 个 下 标 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 




















>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> del spam[2] 

>>> spam 

['cat', 'bat', 'elephant'] 

>>> del spam[2] 

>>> spam 

['cat', 'bat'] 


del 语句 也 可 用 于 一 个 简单 变量 ， 删 除 它 ， 作 用 就 像 是 “取消 赋值 ”语句 。 如 
果 在 删除 之 后 试图 使 用 该 变量 ， 就 会 遇 到 NameError 错误 ， 因 为 该 变量 已 不 再 存在 。 

在 实践 中 ， 你 几乎 永远 不 需要 删除 简单 变量 。del 语句 几乎 总 是 用 于 删除 列表 
中 的 值 。 








































































































42 使 用 列表 


当 你 第 一 次 开始 编程 时 , 很 容易 会 创建 许多 独立 的 变量 , 来 保存 一 组 类 似 的 值 。 
例如 ， 如 果 要 保存 我 的 猫 的 名 字 ， 可 能 会 写 出 这 样 的 代码 ; 

















catName1 = 'Zophie' 
catName2 = “Pooka， 
catName3 = 'Simon' 


catName4 = 'Lady Macbeth 
catName5 = 'Fat-tail' 
catName6 = 'Miss Cleo' 


事实 表明 这 是 一 种 不 好 的 编程 方式 。 举 一 个 例子 ， 如 果 猪 的 数目 发 生 改 变 ， 程 序 就 
不 得 不 增加 变量 ， 来 保存 更 多 的 猫 。 这 种 类 型 的 程序 也 有 很 多 重复 或 几乎 相等 的 代码 。 
考虑 下 面 的 程序 中 有 多 少 重复 代码 ， 在 文本 编辑 器 中 输入 它 并 保存 为 aI[lMyCatsl.py: 


print('Enter the name of cat 1:') 
catName1 = input() 
print('Enter the name of cat 2:') 
catName2 = input() 
print('Enter the name of cat 3:') 
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catName3 = input() 

print('Enter the name of cat 4:') 

catName4 = input() 

print('Enter the name of cat 5:') 

catName5 = input() 

print('Enter the name of cat 6:') 

catName6 = input() 

print('The cat names are:') 

print(catName1 + ' ' + catName2 + ' ' + catName3 + ' ' + catName4 + ' '+ 
catName5 + ' ' + catName6) 


不 必 使 用 多 个 重复 的 变量 ， 你 可 以 使 用 单个 变量 ， 包 含 一 个 列表 值 。 例 如 ， 下 面 
是 新 的 改进 版 本 的 alMyCatsl.py 程序 。 这 个 新 版 本 使 用 了 一 个 列表 ， 可 以 保存 用 户 输 
入 的 任意 多 的 猫 。 在 新 的 文件 编辑 器 窗口 中 ， 输 入 以 下 代码 并 保存 为 aIMyCats2.py。 


catNames = [] 
while True: 

print('Enter the name of cat ' + str(len(catNames) + 1) + 

' (Or enter nothing to stop.):') 
name = input() 
if name == '': 
break 

catNames = catNames + [name] # list concatenation 
print('The cat names are:') 
for name in catNames: 

print(' ' + name) 


运行 这 个 程序 ， 输 出 看 起 来 像 这 检 


Enter the name of cat 1 (Or enter nothing to stop.): 
Zophie 

Enter the name of cat 2 (Or enter nothing to stop.): 
Pooka 

Enter the name of cat 3 (Or enter nothing to stop.): 
Simon 

Enter the name of cat 4 (Or enter nothing to stop.): 
Lady Macbeth 

Enter the name of cat 5 (Or enter nothing to stop.): 
Fat-tail 

Enter the name of cat 6 (Or enter nothing to stop.): 
Miss Cleo 

Enter the name of cat 7 (Or enter nothing to stop.): 



















































































让 


HT 


























The cat names are: 
Zophie 
Pooka 
Simon 
Lady Macbeth 
Fat-tail 
Miss Cleo 


使 用 列表 的 好 处 在 于 ， 现 在 数据 放 在 一 个 结构 中 ， 所 以 程序 能 够 更 灵活 的 处 开 
数据 ， 比 放 在 一 些 重复 的 变量 中 方便 。 
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4.2.1 列表 用 于 循环 
企 第 2 章 中 ， 你 学 习 了 使 用 循环 ， 对 一 段 代 码 执行 一 定 次 数 。 从 技术 上 说 ， 循 环 是 
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:十 注 
“二 可 
壮大 


4.2.2 














针对 一 个 列表 或 类 似 列表 中 的 每 个 值 ， 


for i in range(4) : 
print(i) 


程序 的 输出 将 是 : 





EE 复 地 执行 代码 块 。 例 如 ， 如 果 执 行 以 下 代 三 : 


mh 














wm 一 口 








这 是 因为 range(4) 的 返回 值 是 类 似 列表 的 值 。Python 认为 它 类 似 于 [0, 1, 2, 3] 。 
下 面 的 程序 和 前 面 的 程序 输出 相同 : 


for i in [0, 1, 2, 3]: 
print(i) 


前 面 的 for 循环 实际 上 是 在 循环 执行 它 的 子 句 ， 在 每 次 迭代 中 ， 让 变量 依次 设 
置 为 列表 中 的 值 。 

在 本 书 中 ， 我 使 用 术语 “类 似 列表 ”， 来 指 技术 上 称 为 “序列 ”的 数据 类 型 。 
但 是 ， 你 不 需要 知道 这 个 术语 的 技术 定义 。 






















































































一 个 常见 的 Python 技巧 ， 是 在 for 循环 中 使 用 range(len(someList))， 和 迭代 列表 
的 每 一 个 下 标 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 
>>> supplies = ['pens', 'staplers', 'flame-throwers', 'binders'] 


>>> for i in range(len(supplies)): 
print('Index ' + str(i) + ' in supplies is: ' + supplies[i]) 








Index 0 in supplies is: pens 

Index 1 in supplies is: staplers 

Index 2 in supplies is: flame-throwers 
Index 3 in supplies is: binders 


在 前 面 的 循环 中 使 用 rangeden(supplies)) 很 方便 ， 这 是 因为 ， 循 环 中 的 代码 可 以 访 
问 下 标 (通过 变量 i)， 以 及 下 标 处 的 值 (通过 supplies 自 )。 最 妙 的 是 , range(len(supplies)) 
将 迭代 supplies 的 所 有 下 标 ， 无 论 它 包含 多 少 表 项 。 










































































in 和 not in 操作 符 














利用 in 和 not in 操作 符 ， 可 以 确定 一 个 值 否 在 列表 中 。 像 其 他 操作 符 一 样 ，in 
和 not in 用 在 表达 式 中 ， 连 接 两 个 值 ， 一 个 要 在 列表 中 查找 的 值 ， 以 及 竺 查找 
的 列表 。 这 些 表达 式 将 求 值 为 布尔 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'howdy' in ['hello', 'hi', 'howdy', 'heyas'] 
True 

>>> Spam = ['hello', 'hi', 'howdy', 'heyas'] 

>>> 'cat' in spam 

False 

>>> 'howdy' not in spam 









































| 
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False 
>>> 'cat' not in Spam 
True 


例如 ， 下 面 的 程序 让 用 户 输入 一 个 宠物 名 字 ， 然 后 检查 该 名 字 是 否 在 宠物 列表 
中 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 myPets.py: 


myPets = ['Zophie', 'Pooka', 'Fat-tail'] 
print('Enter a pet name:') 
name = input() 
if name not in myPets: 

print('I do not have a pet named ' + name) 
else: 

print(name + ' is my pet.') 


输出 可 能 像 这 样 : 


Enter a pet name: 
Footfoot 
I do not have a pet named Footfoot 

































































4.2.3 ”多 重 赋值 技巧 
多 重 赋值 技巧 是 一 种 快捷 方式 ， 让 你 在 一 行 代码 中 ， 用 列表 中 的 值 为 多 个 变量 
赋值 。 所 以 不 必 像 这 样 : 


>>> cat = ['fat', 'black', 'loud'] 
>>> size = cat[0] 

>>> color = cat[1] 

>>> disposition = cat[2] 


而 是 输入 下 面 的 代码 : 


>>> cat = ['fat', 'black', 'loud'] 
>>> size, color, disposition = cat 


变量 的 数目 和 列表 的 长 度 必须 严格 相等 ， 否 则 Python 将 给 出 ValueError: 


>>> cat = ['fat', 'black', 'loud'] 
>>> size, color, disposition, name = cat 
Traceback (most recent call last): 
File "<pyshell#84>", line 1, in <module> 
size, color, disposition, name = cat 
ValueError: need more than 3 values to unpack 




































































4.3 增强 的 赋值 操作 


在 对 变量 赋值 时 ， 常 常会 用 到 变量 本 身 。 例 如 ， 将 42 赋 给 变量 spam 之 后 ， 用 
下 面 的 代码 让 spam 的 值 增 加 1: 

















>>> Spam = 42 

>>> spam = spam + 1 
>>> Spam 

43 
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作为 一 种 快捷 方式 ， 可 以 用 增强 的 赋值 操作 符 += 来 完成 同样 的 事 : 


>>> spam = 42 
>>> spam += 1 
>>> spam 

43 











针对 +、-、*、/ 和 % 操 作 符 ， 都 有 增强 的 赋值 操作 符 ， 如 表 4-1 所 示 。 
表 4-1 增强 的 赋值 操作 符 





增强 的 赋值 语句 等 价 的 赋值 语句 
spam += 1 spam = spam + 1 
spam -= 1 spam= spam - 1 
Spam *= 1 spam = Spam * 1 
spam /= 1 spam = spam / 1 
spam %= 1 spam = spam % 1 


+= 操 作 符 也 可 以 完成 字符 串 和 列表 的 连接 , *= 操 作 符 可 以 完成 字符 串 和 列表 的 


>>> Spam = 'Hello' 

>>> Spam += ' World! 

>>> Spam 

‘Hello world!' 

>>> bacon = ['Zophie'] 

>>> bacon *= 3 

>>> bacon 

['Zophie', 'Zophie', 'Zophie'] 











4.4 方法 









































方法 和 函数 是 一 回 事 ， 只 是 它 是 调用 在 一 个 值 上 。 例 如 ， 如 果 一 个 列表 值 存储 
在 spam 中 ， 你 可 以 在 这 个 列表 上 调用 index0O 列 表 方 法 〈 稍 后 我 会 解释 )， 就 像 
spam.index(Chello) 一 样 。 方 法 部 分 跟 在 这 个 值 后 面 ， 以 一 个 句点 分 隔 。 

每 种 数据 类 型 都 有 它 自 己 的 一 组 方法 。 例 如 , 列表 数据 类 型 有 一 些 有 用 的 方法 ， 
来 查找 、 添 加 、 删 除 或 操作 列表 中 的 值 。 




























































































4.4.1 用 index() 方 法 在 列表 中 查找 值 
列表 值 有 一 个 index0 方 法 ， 可 以 传 入 一 个 值 ， 如 果 该 值 存在 于 列表 中 ， 就 返回 它 
的 下 标 。 如 果 该 值 不 在 列表 中 ，Python 就 报 ValueError。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['hello', 'hi', 'howdy', 'heyas'] 





























>>> spam.index('hello') 

0 

>>> spam.index('heyas') 

3 

>>> spam.index('howdy howdy howdy') 
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Traceback (most recent call last): 
File "<pyshell#31>", line 1, in <module> 
spam.index('howdy howdy howdy') 
ValueError: 'howdy howdy howdy' is not in list 


如 果 列 表 中 存在 重复 的 值 ， 就 返回 它 第 一 次 出 现 的 下 标 。 在 交互 式 环境 中 输入 
以 下 代码 ， 注 意 index0 返 回 1， 而 不 是 3: 


>>> Spam = ['Zophie', 'Pooka', 'Fat-tail', 'Pooka'] 
>>> spam.index('Pooka') 
1 


4.4.2 用 append() 和 insert() 方 法 在 列表 中 添加 值 
要 在 列表 中 添加 新 值 ， 就 使 用 append0 和 insert0 方 法 。 在 交互 式 环境 中 输入 以 
下 代码 ， 对 变量 spam 中 的 列表 调用 append0 方 法 : 


>>> spam = ['cat', 'dog', 'bat'] 
>>> spam.append('moose') 

>>> spam 

['cat', 'dog', 'bat', 'moose'] 


前 面 的 appendO 方 法 调用 ， 将 参数 添加 到 列表 末尾 。insert() 方 法 可 以 在 列表 任 
意 下 标 处 插入 一 个 值 。insert0 方 法 的 第 一 个 参数 是 新 值 的 下 标 ， 第 二 个 参数 是 要 
入 的 新 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ['cat', 'dog', 'bat'] 
>>> spam.insert(1, 'chicken') 
>>> spam 

['cat', 'chicken', 'dog', 'bat'] 








| 












































































































































请 注意 ， 代 码 是 spam.append(moose) 和 spam.insert(1，'chicken”)， 而 不 是 spam = 
spam.append('moose') 和 spam = spam.insert(1，'chicken)。append0 和 insert() 都 不 会 将 
spam 的 新 值 作 为 其 返回 值 实际 上 ，append0 和 insert0 的 返回 值 是 None， 所 以 你 
肯定 不 希望 将 它 保存 为 变量 的 新 值 )。 但 是 , 列表 被 “当场 ”修改 了 。 在 4.6.1 节 “ 可 
变 和 不 变数 据 类 型 ”中 ， 将 更 详细 地 介绍 当场 修改 一 个 列表 。 
方法 属于 单个 数据 类 型 。append0 和 insert0 方 法 是 列表 方法 ， 只 能 在 列表 上 调 
， 不 能 在 其 他 值 上 调用 ， 例 如 字符 串 和 整 型 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 
意 产 生 的 AttributeError 错误 信息 : 


>>> eggs = 'hello' 
>>> eggs.append('world') 
Traceback (most recent call last): 
File "<pyshell#19>", line 1, in <module> 
eggs.append('world') 
AttributeError: 'str' object has no attribute 'append’ 
>>> bacon = 42 
>>> bacon.insert(1, 'world') 
Traceback (most recent call last): 
File "<pyshell#22>", line 1, in <module> 
bacon.insert(1, 'world') 
AttributeError: 'int' object has no attribute 'insert’ 
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4.4.3 用 remove() 方 法 从 列表 中 删除 值 
给 remove0 方 法 传 入 一 个 值 ， 它 将 从 被 调用 的 列表 中 删除 。 在 交互 式 环境 中 输 
入 以 下 代码 : 
>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> spam.remove('bat') 
>>> spam 
['cat', 'rat', 'elephant'] 
试图 删除 列表 中 不 存在 的 值 ， 将 导致 ValueError 错误 。 例 如 ， 在 交互 式 环境 中 
输入 以 下 代码 ， 注 意 显 示 的 错误 ; 
>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> spam.remove('chicken') 
Traceback (most recent call last): 
File "<pyshell#11>", line 1, in <module> 


spam.remove('chicken') 
ValueError: list.remove(x): x not in list 


如 果 该 值 在 列表 中 出 现 多 次 ， 只 有 第 一 次 出 现 的 值 会 被 删除 。 在 交互 式 环境 中 
输入 以 下 代码 : 
>>> spam = ['cat', 'bat', 'rat', 'cat', 'hat', 'cat'] 
>>> spam.remove('cat') 
>>> spam 

如 果 知 道 想 要 删除 的 值 在 列表 中 的 下 标 ，del 语句 就 很 好 用 。 如 果 知 道 想 要 从 
列表 中 删除 的 值 ，remove0 方 法 就 很 好 用 。 


4.4.4 用 sort() 方 法 将 列表 中 的 值 排序 
数值 的 列表 或 字符 串 的 列表 ， 能 用 sort0) 方 法 排序 。 例 如 ， 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> spam = [2, 5, 3.14, 1, -7] 

>>> spam.sort() 

>>> spam 

[-7, 1, 2, 3.14, 5] 

>>> spam = ['ants', 'cats', 'dogs', 'badgers', 'elephants'] 
>>> spam.sort() 



































































































































>>> spam 
['ants', 'badgers', 'cats', 'dogs', 'elephants'] 
也 可 以 指定 reverse 关键 字 参 数 为 True， 让 sort0 按 逆序 排序 。 在 交互 式 环境 中 
输入 以 下 代码 : 
>>> spam.sort(reverse=True) 
>>> spam 
['elephants', 'dogs', 'cats', 'badgers', 'ants'] 














关于 sort0 方 法 ， 你 应 该 注意 3 件 事 。 首 先 ，sort() 方 法 当场 对 列表 排序 。 不 要 
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写 出 spam = spam.sort0) 这 样 的 代码 ， 试 图 记录 返回 值 。 
其 次 ,不 能 对 既 有 数字 又 有 字符 串 值 的 列表 排序 ， 因 为 Python 不 知道 如 何 比较 
它们 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 TypeError 错误 : 


>>> spam = [1, 3, 2, 4, 'Alice', 'Bob'] 
>>> spam.sort() 
Traceback (most recent call last): 
File "<pyshell#70>", line 1, in <module> 
spam.sort() 
TypeError: unorderable types: str() < int() 
































AAA 


和 三 ，sort0 方 法 对 字符 串 排 序 时 ， 使 用 “ASCH 字符 顺序 ” 而 不 是 实际 的 字 
典 顺 序 。 这 意味 着 大 写字 母 排 在 小 写字 母 之 前 。 因 此 在 排序 时 ， 小 写 的 a 在 大 写 的 
这 之 后 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['Alice', 'ants', 'Bob', 'badgers', 'Carol', 'cats'] 
>>> spam.sort() 
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>>> Spam 
['Alice', 'Bob', 'Carol', 'ants', 'badgers', 'cats'] 

如 果 需 要 按照 普通 的 字典 顺序 来 排序 ， 就 在 sort0 方 法 调用 时 ， 将 关键 字 参 数 
key 设置 为 strlower。 


>>> Spam = ['a', 'z', 'A', '2'] 
>>> spam.sort(key=str.1lower) 
>>> spam 

L'a. A 2 2 


这 将 导致 sort0 方 法 将 列表 中 所 有 的 表 项 当成 小 写 ， 但 实际 上 并 不 会 改变 它们 
在 列表 中 的 值 。 












































4.5 例子 程序 : 神奇 8 球 和 列表 


前 一 章 我 们 写 过 神奇 8 球 程序 。 利 用 列表 ， 可 以 写 出 更 优雅 的 版 本 。 不 是 用 一 
些 几 乎 一 样 的 elif 语句 ， 而 是 创建 一 个 列表 ， 针 对 它 编码 。 打 开 一 个 新 的 文件 编辑 
器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 magic8Ball2.py: 


import random 







































































messages = [' It is certain', 
"It is decidedly so', 
"Yes definitely', 
'Reply hazy try again '， 
"Ask again later', 
"Concentrate and ask again ' ， 
'My reply is no', 
"Out1look not so good', 
'Very doubtful'] 


print(messages[random.randint(0, len(messages) - 1)]) 
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Python 中 缩 进 规则 的 例外 

在 大 多 数 情况 下 ， 代 码 行 的 缩 进 告诉 Python 它 属 于 哪 一 个 代码 块 。 但 是 ， 
这 个 规则 有 几 个 例外 。 倒 如 在 源 代码 文件 中 ， 列 表 实 际 上 可 以 跨越 几 行 。 这 些 行 
代码 可 以 看 起 来 像 这 样 : 
Spam = [' apples '， 

oranges ' ， 

“bananas ' ， 

"cats '] 
print(spam) 

当然 ， 从 实践 的 角度 来 说 ， 大 部 分 人 会 利用 Python 的 行为 ， 让 他 们 的 列表 
看 起 来 漂亮 且 可 读 ， 就 像 神奇 8 球 程序 中 的 消息 列表 一 样 。 

也 可 以 在 行 末 使 用 续 行 字符 \， 将 一 条 指令 写成 多 行 。 可 以 把 \ 看 成 是 “这 条 
间 令 在 下 一 行 继 续 ”。\ 续 行 字 符 之 后 的 一 行 中 ， 缩 进 并 不 重要 。 例 如 ， 下 面 是 有 
效 的 Python 代码 : 


print('Four score and seven ' + \ 
'years ago...') 


如 果 布 望 将 一 长 行 的 Python 代码 安排 得 更 为 可 读 ， 这 些 技巧 是 有 用 的 。 


运行 这 个 程序 ， 你 会 看 到 它 与 前 面 的 magic8Ball.py 程序 效果 一 样 。 
请 注意 用 作 messages 下 标的 表达 式 : random.randint(0, len(messages) - 1)。 这 产 






























































生 了 一 个 随机 数 作 为 下 标 ， 不 论 messages 的 大 小 是 多 少 。 也 就 是 说 ， 你 会 得 到 0 与 








len(messages) - 1 之 间 的 一 个 随机 数 。 这 种 方法 的 好 处 在 于 ， 很 容易 向 列表 添加 或 删 
除 字符 串 ， 而 不 必 改 变 其 他 行 的 代码 。 如 果 稍 后 更 新 代码 ， 就 可 以 少 改 几 行 代码 ， 
引入 缺陷 的 可 能 性 也 更 小 。 






























































4.6 ”类 似 列表 的 类 型 : 字符 串 和 元 组 

















列表 并 不 是 唯一 表示 序列 值 的 数据 类 型 。 例 如 ， 字 符 串 和 列表 实际 上 很 相似 ， 
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4 要 你 认为 字符 串 是 单个 文本 字符 的 列表 。 对 列表 的 许多 操作 ， 也 可 以 作用 于 字符 


























日 





和 : 按 下 标 取 值 、 切 片 、 用 于 for 循环、 用 于 len0， 以 及 用 于 in 和 not in 操作 符 。 














为 了 看 到 这 种 效果 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> name = 'Zophie' 





>>> name[0] 


Zz 


>>> name[-2] 


i! 


>>> name[0:4] 


Zoph 
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>>> 'Z0' in name 
True 
>>> 'z' in name 
False 
>>> 'p' not in name 
False 
>>> for i in name: 
print('* *w*w ++ '** *') 


大 大大 了 ZA 人 * 
太太 类 类 类 尖 
A ee 
* 大 由 * 大 大 
大大 大 了 大大 炎 
类 类 类 类 类 类 


4.6.1 可 变 和 不 可 变数 据 类 型 
但 列表 和 字符 串 在 一 个 重要 的 方面 是 不 同 的 。 列 表 是 “可 变 的 ”数据 类 型 ， 它 
的 值 可 以 添加 、 删 除 或 改变 。 但 是 ， 字 符 串 是 “不 可 变 的 ” 它 不 能 被 更 改 。 尝 试 
对 字符 串 中 的 一 个 字符 重新 赋值 ， 将 导致 TypeError 错误 。 在 交互 式 环境 中 输入 以 
下 代码 ， 你 就 会 看 到 : 
>>> name = 'Zophie a cat' 
>>> name[7] = 'the' 
Traceback (most recent call last): 

File "<pyshell#50>", line 1, in <module> 


name[7] = 'the’ 
TypeError: 'str' object does not support item assignment 


“改变 ”一 个 字符 串 的 正确 方式 ， 是 使 用 切片 和 连接 。 构 造 一 个 “新 的 ”字符 
串 ， 从 老 的 字符 串 那 里 复制 一 些 部 分 。 在 交互 式 环境 中 输入 以 下 代码 : 























































































































>>> name = 'Zophie a cat 
>>> newName = name[0:7] + 'the' + name[8:12] 
>>> name 


‘Zophie a cat' 
>>> newName 
‘Zophie the cat' 


我 们 用 [0:7] 和 [8:12] 来 指 那 些 不 想 蔡 换 的 字符 。 请 注意 ， 原 来 的 'Zophie a cat 字 
符 串 没有 被 修改 ， 因 为 字符 串 是 不 可 变 的 。 尽 管 列 表 值 是 可 变 的 ， 但 下 面 代码 中 的 
第 二 行 并 没有 修改 列表 eggs: 






































>>> eggs = [1, 2, 3] 
>>> eggs = [4, 5, 6] 
>>> eggs 
[4，5，6] 




















这 里 eggs 中 的 列表 值 并 没有 改变 ， 而 是 整个 新 的 不 同 的 列表 值 ([4, 5, 6])， 履 写 
了 老 的 列表 值 。 如 图 4-2 所 示 。 
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WW 


图 4-2 当 eggs = [4, 5, 6] 被 执行 时 ，eggs 的 内 容 被 新 的 列表 值 取代 








如 果 你 确实 希望 修改 eggs 中 原来 的 列表 ， 让 它 包 含 [4, 5, 6]， 就 要 这 样 做 : 
>>> eggs = [1, 2, 3] 
>>> del eggs[2] 
>>> del eggs[1] 
>>> del eggs[0] 
>>> eggs.append(4) 
>>> eggs.append(5) 
>>> eggs.append(6) 
en eggs 
[4, 5, 6] 


在 第 一 个 例子 中 ，eggs 最 后 的 列表 值 与 它 开 始 的 列表 值 是 一 样 的。 只 是 这 个 列 
表 被 改变 了 ， 而 不 是 被 覆 写 。 图 4-3 展示 了 前 面 交 互 式 脚本 的 例子 中 ， 前 7 行 代码 
所 做 的 7 次 改动 。 


MY 
a Na A 


图 4-3 del 语句 和 append() 方 法 当场 修改 了 同一 个 列表 值 


改变 一 个 可 变数 据 类 型 的 值 〈 就 像 前 面 例子 中 del 语句 和 append() 方 法 所 做 的 
事 )， 当 场 改 变 了 该 值 ， 因 为 该 变量 的 值 没 有 被 一 个 新 的 列表 值 取代 。 

区 分 可 变 与 不 可 变 类 型 ， 似 乎 没有 什么 意义 ， 但 4.7.1 节 “ 传 递 引用 ”将 解释 ， 
使 用 可 变 参 数 和 不 可 变 参数 调用 函数 时 产生 的 不 同行 为 。 首 先 ， 让 我 们 来 看 看 元 组 
数据 类 型 ， 它 是 列表 数据 类 型 的 不 可 变形 式 。 
























































4.6.2 元 组 数据 类 型 
除了 两 个 方面 ,“ 元 组 ”数据 类 型 几乎 与 列表 数据 类 型 一 样 。 首 先 ， 元 组 输入 
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4.6.3 用 


























时 用 圆 括 号 0， 而 不 是 用 方 括号 []。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> eggs = ('hello', 42, 0.5) 
>>> eggs[0] 

'hello’ 

>>> eggs[1:3] 

(42，0.5) 

>>> len(eggs) 

3 





团 






































但 元 组 与 列表 的 主要 区 别 还 在 于 ， 元 组 像 字符 串 一 样 ， 是 不 可 变 的 。 元 组 不 能 
让 它们 的 值 被 修改 、 添 加 或 删除 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 TypeError 


出 错 信 息 ; 


























>>> eggs = ('hello', 42, 0.5) 
>>> eggs[1] = 99 
Traceback (most recent call last): 
File "<pyshell#5>", line 1, in <module> 
eggs[1] = 99 
TypeError: 'tuple' object does not support item assignment 


如 果 元 组 中 只 有 一 个 值 ， 你 可 以 在 括号 内 该 值 的 后 面 跟 上 一 个 逗号 ， 表 明 这 种 
情况 。 和 否则，Python 将 认为 ， 你 只 是 在 一 个 普通 括号 内 输入 了 一 个 值 。 喜 号 告诉 
Python， 这 是 一 个 元 组 (不 像 其 他 编程 语言 ，Python 接受 列表 或 元 组 中 最 后 表 项 后 
面 跟 的 逗号 )。 在 交互 式 环 境 中 ， 输 入 以 下 的 type0 函 数 调 用 ， 看 看 它们 的 区 别 : 


>>> type(('hello',)) 
<class 'tuple'> 

>>> type(('hello')) 
<class 'str'> 


你 可 以 用 元 组 告诉 所 有 读 代码 的 人 ， 你 不 打算 改变 这 个 序列 的 值 。 如 果 需 要 一 
个 永远 不 会 改变 的 值 的 序列 , 就 使 用 元 组 。 使 用 元 组 而 不 是 列表 的 第 二 个 好 处 在 于 ， 
因为 它们 是 不 可 变 的 ， 它 们 的 内 容 不 会 变化 ，Python 可 以 实现 一 些 优化 ， 让 使 用 元 
组 的 代码 比 使 用 列表 的 代码 更 快 。 





















































































































































































































































list() 和 tuple() 函 数 来 转换 类 型 

正如 str(42) 将 返回 42'， 即 整数 42 的 字符 串 表 示 形 式 ， 函 数 list0 和 tuple0 将 返 
回 传递 给 它们 的 值 的 列表 和 元 组 版 本 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 返 回 值 
与 传 入 值 是 不 同 的 数据 类 型 : 


>>> tuple(['cat', 'dog', 5]) 
('cat', 'dog', 5) 

>>> list(('cat', 'dog', 5)) 
['cat', 'dog', 5] 

>>> list('hello') 

['h', 'e', '1', '1', '0'] 






































如 果 需 要 元 组 值 的 一 个 可 变 版 本 ， 将 元 组 转换 成 列表 就 很 方便 。 
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4.7 5| 用 


@Q@e 


正如 你 看 到 的 ， 变 量 保存 字符 串 和 整数 值 。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> Spam = 42 

>>> Cheese = Spam 
>>> Spam = 100 
>>> Spam 

100 

>>> Cheese 

42 




















你 将 42 赋 给 spam 变量 ， 然 后 拷贝 spam 中 的 值 ， 将 它 赋 给 变量 cheese。 当 稍 
后 将 spam 中 的 值 改变 为 100 时 ,这 不 会 影响 cheese 中 的 值 , 这 是 因为 spam 和 cheese 
是 不 同 的 变量 ， 保 存 了 不 同 的 值 。 

但 列表 不 是 这 样 的 。 当 你 将 列表 赋 给 一 个 变量 时 ， 实 际 上 是 将 列表 的 “引用 ” 
武 给 了 该 变量 。 引 用 是 一 个 值 ， 指 向 某 些 数据 。 列 表 引 用 是 指向 一 个 列表 的 值 。 这 
有 有 一 些 代码 ， 让 这 个 概念 更 容易 理解 。 在 交互 式 环境 中 输入 以 下 代码 : 
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um 








>>> spam = [0, 1, 2, 3, 4, 5] 
>>> cheese = spam 

>>> cheese[1] = 'Hello!' 

>>> spam 

[0，'Hello!', 2, 3, 4, 5] 
>>> cheese 

[0，'Hello!', 2, 3, 4,5] 


这 可 能 让 你 感到 奇怪 。 代 码 只 改变 了 cheese 列表 ， 但 似乎 cheese 和 spam 列表 
同时 发 生 了 改变 。 

当 创 建 列表 时 @, 你 将 对 它 的 引用 赋 给 了 变量 , 但 下 一 行 @ 只 是 将 spam 中 的 列 

表 引 用 拷贝 到 cheese， 而 不 是 列表 值 本 身 。 这 意味 着 存储 在 spam 和 cheese 中 的 值 ， 
现在 指向 了 同一 个 列表 。 底 下 只 有 一 个 列表 ， 因 为 列表 本 身 实 际 从 未 复制 。 所 以 当 
你 修改 cheese 变量 的 第 一 个 元 素 时 @， 也 修改 了 spam 指向 的 同一 个 列表 。 
记 住 ， 变 量 就 像 包 含 着 值 的 盒子 。 本 章 前 面 的 图 显示 列表 在 盒子 中 ， 这 并 不 准 
确 ， 因 为 列表 变量 实际 上 没有 包含 列表 ， 而 是 包含 了 对 列表 的 “引用 ”( 这 些 引 用 
包含 一 些 ID 数字 ，Python 在 内 部 使 用 这 些 ID， 但 是 你 可 以 忽略 )。 利 用 盒子 作为 
变量 的 隐喻 ， 图 4-4 展示 了 列表 被 赋 给 spam 变量 时 发 生 的 情形 。 



































































































































































































































Reference 
ID: 57207444 


ID: 57207444 


[O, 1, 2, 





3, 4, 5] 





图 4-4 spam = [0, 1, 2, 3, 4, 5] 保 存 了 对 列表 的 引用 ， 而 非 实际 列表 
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然后 ， 在 图 4-5 中 ，spam 中 的 引用 被 复制 给 cheese。 只 有 新 的 引用 被 创建 并 保 
存在 cheese 中 ， 而 非 新 的 列表 。 请 注意 ， 两 个 引用 都 指向 同一 个 列表 。 


























ID: 57207444 
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4-5 spam = cheese 复制 了 引用 ， 而 非 列 表 


当 你 改变 cheese 指向 的 列表 时 ，spam 指向 的 列表 也 发 生 了 改变 ， 因 为 cheese 
和 spam 都 指向 同一 个 列表 ， 如 图 4-6 所 示 。 








Reference 
ID: 57207444 


ID: 57207444 


[O, 'Hello’, 
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4-6 cheese[1] = 'Hellol! 修 改 了 两 个 变量 指向 的 列表 


变量 包含 对 列表 值 的 引用 ， 而 不 是 列表 值 本 身 。 但 对 于 字符 串 和 整数 值 ， 变 量 
就 包含 了 字符 串 或 整数 值 。 在 变量 必须 保存 可 变数 据 类 型 的 值 时 , 例如 列表 或 字典 ， 
yn 就 使 用 引用 。 对 于 不 可 变 的 数据 类 型 的 值 , 例如 字符 串 、 整 型 或 元 组 , Python 
变量 就 保存 值 本 身 。 

虽然 Python 变量 在 技术 上 包含 了 对 列表 或 字典 值 的 引用 ， 但 人 们 通常 随意 地 
说 ， 该 变量 包含 了 列表 或 字典 。 









































4.7.1 传递 引用 
要 理解 参数 如 何 传递 给 函数 ， 引 用 就 特别 重要 。 当 函数 被 调用 时 ， 参 数 的 值 被 
复制 给 变 元 。 对 于 列表 《〈 以 及 字典 ， 我 将 在 下 一 章 中 讨论 )， 这 意味 着 变 元 得 到 的 
是 引用 的 拷贝 。 要 看 看 这 导致 的 后 果 ， 请 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 
代码 ， 并 保存 为 passingReference.py: 


def eggs(someParameter): 
someParameter.append('Hello') 
































spam = [1, 2，3] 
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eggs (spam) 
print(spam) 

请 注意 ， 当 eggs0 被 调用 时 , 没有 使 用 返回 值 来 为 spam 赋 新 值 。 相 反 ， 它 直接 
当场 修改 了 该 列表 。 在 运行 时 ， 该 程序 产生 输出 如 下 : 


[1, 2, 3, 'Hello'] 


尽管 spam 和 someParameter 包含 了 不 同 的 引用 , 但 它们 都 指向 相同 的 列表 。 这 就 是 
为 什么 函数 内 的 appendCHello) 方 法 调用 在 函数 调用 返回 后 ， 仍 然 会 对 该 列表 产生 影响 。 

请 记 住 这 种 行为 : 如 果 忘 了 Python 处 理 列表 和 字典 变量 时 采用 这 种 方式 , 可 能 
会 导致 令 人 困惑 的 缺陷 。 
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4.7.2 copy 模块 的 copy() 和 deepcopy() 函 数 





在 处 理 列表 和 字典 时 ， 尽 管 传 递 引用 常常 是 最 方便 的 方法 ， 但 如 果 函 数 修 改 了 
传 入 的 列表 或 字典 , 你 可 能 不 希望 这 些 变动 影响 原来 的 列表 或 字典 。 要 做 到 这 一 点 ， 
Python 提供 了 名 为 copy 的 模块 ， 其 中 包含 copy0 和 deepcopy0 函 数 。 第 一 个 函数 
copy.copyO0， 可 以 用 来 复制 列表 或 字典 这 样 的 可 变 值 ， 而 不 只 是 复制 引用 。 在 交互 
式 环境 中 输入 以 下 代码 : 
>>> import copy 
>>> spam = ['A', 'B', 'C', 'D'] 
>>> cheese = copy.copy (spam) 
>>> cheese[1] = 42 
>>> spam 
EAL BG DD 
>>> cheese 
LA 2 "Os, 5D: 洒 
现在 spam 和 cheese 变量 指向 独立 的 列表 ， 这 就 是 为 什么 当 你 将 42 赋 给 下 标 7 
时 ， 只 有 cheese 中 的 列表 被 改变 。 在 图 4-7 中 可 以 看 到 ， 两 个 变量 的 引用 ID 数字 
不 再 一 样 ， 因 为 它们 指向 了 独立 的 列表 。 


ID: 57205555 





























































































































[A, 8， LA, 42 
Spey CD 





Reference (— 


Reference 
ID: 57205555 


ID: 57208888 ; 








J 


4-7 ”cheese = copycopy(spam) 创 建 了 第 二 个 列表 ， 能 独立 于 第 一 个 列表 修改 


如 果 要 复制 的 列表 中 包含 了 列表 ， 那 就 使 用 copy.deepcopy0 函数 来 代 丛 。 




















第 4 章 列表 77 


deepcopyO 函 数 将 同时 复制 它们 内 部 的 列表 。 


4.8 小 结 
列 









































ea 


是 有 用 的 数据 类 型 ， 因 为 它们 让 你 写 代码 处 





一 组 可 以 修改 的 值 ， 同 时 仅 









































j 一 个 变量 。 在 本 书后 面 的 章节 中 ， 你 会 看 到 一 些 程序 利用 列表 来 完成 工作 。 没 有 
列表 ， 这 些 工作 很 困难 ， 甚 至 不 可 能 完成 。 

列表 是 可 变 的， 这 意味 着 它们 的 内 容 可 以 改变 。 元 组 和 字符 串 虽 然 在 某 些 方面 
像 列表 ， 




























































































却 是 不 可 变 的 ， 不 能 被 修改 。 包 含 一 个 元 组 或 字符 串 的 变量 ， 可 以 被 一 个 




















新 的 元 组 或 字符 串 履 写 ， 但 这 和 现场 修改 原来 的 值 不 是 一 回 事 ， 不 像 append0 和 
remove() 方 法 在 列表 上 的 效果 。 

















变量 不 直接 保存 列表 值 ， 它 们 保存 对 列表 的 “引用 ”。 在 复制 变量 或 将 列表 作 
































为 函数 调用 的 参数 时 ， 这 一 点 很 重要 。 因 为 被 复制 的 只 是 列表 引用 ， 所 以 要 注意 ， 
对 该 列表 的 所 有 改动 都 可 能 影响 到 程序 中 的 其 他 变量 。 如 果 需 要 对 一 个 变量 中 的 列 


表 修 改 ， 


4.9 习题 










































































同时 不 修改 原来 的 列表 ， 就 可 以 用 copy0 或 deepcopy0。 


1. 什么 是 []? 

2. 如 何 将 hello' 赋 给 列表 的 第 三 个 值 ， 而 列表 保存 在 名 为 spam 的 变量 中 ? 〈 假 
定 变量 包含 [2, 4, 6, 8, 10] )。 

对 接 下 来 的 3 个 问题 ， 假 定 spam 包含 列表 [a, 'b', 'c', 'd']。 

3. spam[int(3'* 2) /11] 求 值 为 多 少 ? 

4. spam[-1] 求 值 为 多 少 ? 





5. 

















spam[:2] 求 值 为 多 少 ? 





对 接 下 来 的 3 个 问题 。 假 定 bacon 包含 列表 [3.14, 'cat', 11, 'cat', True]。 
6. bacon.index(cat) 求 值 为 多 少 ? 


7. bacon.append(99) 让 bacon 中 的 列表 值 变 成 什么 样 ? 
8. bacon.remove('cat") 让 bacon 中 的 列表 时 变 成 什么 样 





~ 








9. 列表 连接 和 复制 的 操作 符 是 什么 ? 


10. 
11. 
12. 
13. 
14. 
15; 
16. 














append0 和 insert() 列 表 方 法 之 间 的 区 别 是 什么 ? 

从 列表 中 删除 值 有 哪 两 种 方法 ? 

请 说 出 列表 值 和 字符 串 的 几 点 相似 之 处 。 

列表 和 元 组 之 间 的 区 别 是 什么 ? 

如 果 元 组 中 只 有 一 个 整数 值 42， 如 何 输入 该 元 组 ? 

如 何 从 列表 值得 到 元 组 形式 ? 如 何 从 元 组 值得 到 列表 形式 ? 

“包含 ”列表 的 变量 , 实际 上 并 未 真 地 直接 包含 列表 。 它们 包含 的 是 什么 ? 
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17. copy.copy0 和 copy.deepcopy0 之 间 的 区 别 是 什么 ? 


4.10 “实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 




















4.10.1 逗号 代码 
假定 有 下 面 这 样 的 列表 : 
Spam = ['apples', 'bananas', 'tofu', 'cats’ 
编写 一 个 函数 ， 它 以 一 个 列表 值 作为 参数 ， 返 回 一 个 字符 串 。 该 字符 串 包含 所 
有 表 项 ， 表 项 之 间 以 逗号 和 空格 分 隔 ， 并 在 最 后 一 个 表 项 之 前 插入 and。 例 如 ， 将 
前 面 的 spam 列表 传递 给 函数 ， 将 返回 'apples, bananas, tofu, and cats'。 但 你 的 函数 应 
该 能 够 处 理 传递 给 它 的 任何 列表 。 































































































4.10.2 ”字符 图 网 格 
假定 有 一 个 列表 的 列表 ， 内 层 列表 的 每 个 值 都 是 包含 一 个 字符 的 字符 串 ， 像 这 样 : 




















DT id a. nye 
ee 

(205 O06 0 OT rs 

['0', '0', '0', '0', '0', 和] 

[os OP, “OR 0% Os 0 J 

(50% "Oy. Os 0: LOD 

[Os OD OU “OU eol 
[0 

a ey ] 


de Re 
你 可 以 认为 grid[x][y] 是 一 幅 “ 图 ”在 x、y 坐标 处 的 字符 ， 该 图 由 文本 字符 组 
成 。 原 点 (0, 0) 在 左上 角 ， 向 右 x 坐标 增加 ， 向 下 y 坐标 增加 。 
复制 前 面 的 网 格 值 ， 编 写 代码 用 它 打 印 出 图 像 。 










































































GO 
.0000000 . 
0000000 
00000 
.000 . 
提示 你 需要 使 用 循环 瞪 套 循环 ， 打 印 出 grid[0][0]， 然 后 grid[1][0]， 然 后 grid[2][0]， 以 此 
类 推 ， 直 到 grid[8][0]。 这 就 完成 第 一 行 ， 所 以 接 下 来 打印 换行 。 然 后 程序 将 打印 出 


grid[0][1]， 然 后 grid[1][1]， 然 后 grid[2][1]， 以 此 类 推 。 程 序 最 后 将 打印 出 grid[8][5]。 


而 且 ， 如 果 你 不 希望 在 每 次 print0 调 用 后 都 自动 打印 换行 ， 记 得 向 print0 传 递 
end 关键 字 参 数 。 
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第 口 间 


字典 和 结构 化 数据 



































在 本 章 中 ， 我 将 介绍 字典 数据 类 型 ， 它 提供 了 一 种 灵活 
的 访问 和 组 织 数 据 的 方式 。 然 后 ， 结 合 字典 与 前 一 章 中 关于 
列表 的 知识 ， 你 将 学 习 如 何 创建 一 个 数据 结构 ， 对 井 字 棋盘 
建 模 。 






























































5.1 字典 数据 类 型 


像 列 表 一 样 ,“ 字 典 ” 是 许多 值 的 集合 。 但 不 像 列 表 的 下 标 ， 字 典 的 索引 可 以 
使 用 许多 不 同 数据 类 型 ， 不 只 是 整数 。 字 典 的 索引 被 称 为 “ 键 ” 键 及 其 关联 的 值 
称 为 “ 键 - 值 ” 对 。 
在 代码 中 ， 字 和 典 输入 时 带 花 括号 {}。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> myCat = {'size': 'fat', 'color': 'gray', 'disposition': 'loud'} 

这 将 一 个 字典 赋 给 myCat 变量 。 这 个 字典 的 键 是 'size'、'color' 和 'disposition'。 这 
些 键 相 应 的 值 是 fat'、'gray' 和 "oud'。 可 以 通过 它们 的 键 访 问 这 些 值 : 











































































































>>> myCat['size'] 

‘fat' 

>>> 'My cat has ' + myCat['color'] + "' 
'My cat has gray fur. 


字典 仍然 可 以 用 整数 值 作为 键 ， 就 像 列表 使 有 
必 从 0 开始 ， 可 以 是 任何 数字 。 


>>> spam = {12345: 


fur.' 























'Luggage Combination', 42: 


5.1.1 字典 与 列表 
不 像 列表 , 字 

















中 的 表 项 是 不 排序 


















































的 。 名 为 spam 的 列表 中 ,多 


整数 值 作为 下 标 一 样 ， 但 它们 不 


"The Answer'} 








有 一 个 表 项 是 spam[0]。 









































































































































































































































但 字典 中 没有 “第 一 个 ” 表 项 。 虽 然 确定 两 个 列表 是 否 相 同时 ， 表 项 的 顺序 很 重要 ， 
但 在 字典 中 ， 键 - 值 对 输入 的 顺序 并 不 重要 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> spam = ['cats', 'dogs', 'moose'] 
>>> bacon = ['dogs', 'moose', 'cats'] 
>>> spam == bacon 
False 
>>> eggs = {'name': 'Zophie', 'species': 'cat', 'age': '8'} 
>>> ham = {'species': 'cat', 'age': '8', 'name': 'Zophie'} 
>>> eggs == ham 
True 
因为 字典 是 不 排序 的 ， 所 以 不 能 像 列表 那样 切片 。 
尝试 访问 字典 中 不 存在 的 键 , 将 导致 KeyError 出 错 信息 。 这 很 像 列表 的 “越界 ” 
IndexError 出 错 信息 。 在 交互 式 环境 中 输入 以 下 代码 ， 并 注意 显示 的 出 错 信息 ， 因 
为 没有 'color' 键 : 
>>> Spam = {'name': 'Zophie', 'age': 7} 
>>> spam['color'] 
Traceback (most recent call last): 
File "<pyshell#1>", line 1, in <module> 
spam['color'] 
KeyError: "Color 
尽管 字典 是 不 排序 的 ， 但 可 以 用 任意 值 作 为 键 ， 这 一 点 让 你 能 够 用 强大 的 方式 来 
组 织 数据 。 假 定 你 希望 程序 保存 朋友 生日 的 数据 ， 就 可 以 使 用 一 个 字典 ， 用 名 字 作 为 
键 , 用 生日 作为 值 . 打开 一 个 新 的 文件 编辑 窗口 , 输入 以 下 代码 , 并 保存 为 birthdays.py: 
© birthdays = {'Alice': 'Apr 1', 'Bob': 'Dec 12', 'Carol': 'Mar 4'} 
while True: 
print('Enter a name: (blank to quit)') 
name = input() 
if name == '': 
break 
© if name in birthdays: 
© print(birthdays[name] + ' is the birthday of ' + name) 
else: 
print('I do not have birthday information for ' + name) 


print('What is their birthday?') 
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bday = input() 
(49 birthdays[name] = bday 
print('Birthday database updated.') 


你 创建 了 一 个 初始 的 字典 ， 将 它 保存 在 birthdays 中 @。 用 in 关键 字 ， 可 以 看 看 输入 
的 名 字 是 否 作为 键 存在 于 字典 中 四 ， 就 像 查 看 列表 一 样 。 如 果 该 名 字 在 字典 中 ， 你 可 以 用 
方 括号 访问 关联 的 值 目 。 如 果 不 在 ， 你 可 以 用 同样 的 方 括号 语法 和 赋值 操作 符 添 加 它 @。 
运行 这 个 程序 ， 结 果 看 起 来 如 下 所 示 : 


Enter a name: (blank to quit) 
Alice 

Apr 1 is the birthday of Alice 
Enter a name: (blank to quit) 
Eve 

I do not have birthday information for Eve 
What is their birthday? 

Dec 5 

Birthday database updated. 
Enter a name: (blank to quit) 
Eve 

Dec 5 is the birthday of Eve 
Enter a name: (blank to quit) 


当然 , 在 程序 终止 时 , 你 在 这 个 程序 中 输入 的 所 有 数据 都 丢失 了 。 在 第 8 章 中 ， 
你 将 学 习 如 何 将 数据 保存 在 硬盘 的 文件 中 。 














































































































































































































5.1.2 ”keys()、values() 和 items() 方 法 














有 3 个 字典 方法 , 它们 将 返回 类 似 列表 的 值 , 分 别 对 应 于 字典 的 键 、 值 和 键 - 值 对 : 
keys0、values0 和 items()。 这 些 方 法 返回 的 值 不 是 真正 的 列表 ， 它 们 不 能 被 修改 ， 没 有 
append() 方 法 。 但 这 些 数据 类 型 〈 分 别 是 dict_keys、dict_values 和 dict_items ) 可 以 用 于 
for 循环 。 为 了 看 看 这 些 方法 的 工作 原理 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 






























































>>> spam = {'color': 'red', 'age': 42} 
>>> for v in spam.values(): 
print(v) 
red 
42 




















这 里 ，for 循环 送 代 了 spam 字典 中 的 每 个 值 。for 循环 也 可 以 选 代 每 个 键 ， 或 
者 键 - 值 对 : 


>>> for k in spam.keys(): 





print(k) 

color 

age 

>>> for i in spam.items(): 
print(i) 


('color', 'red') 
('age', 42) 
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利用 keys()、values() 和 items0 方 法 ,循环 分 别 可 以 迭代 键 、 值 或 键 - 值 对 。 请 注 











意 ，items() 方 法 返回 的 dict_items 值 中 ， 包 含 的 是 键 和 值 的 元 组 。 
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如 果 和 希望 通过 这 些 方法 得 到 一 个 真正 的 列表 ， 就 把 类 似 列表 的 返回 值 传 递 给 list 





函数 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = {'color': 'red', 'age': 42} 
>>> Spam.keys() 

dict_ keys(['color', 'age']) 

>>> list(spam.keys()) 

['color', 'age'] 





list(spam.keys()) 代 码 行 接受 keys0 函 数 返 回 的 dict_keys 值 ， 并 传递 给 list0)。 然 


后 返回 一 个 列表 ， 即 [color, 'age']。 






































也 可 以 利用 多 重 赋值 的 技巧 ， 在 for 循环 中 将 键 和 值 赋 给 不 同 的 变量 。 在 交互 














式 环境 中 输入 以 下 代码 : 


>>> spam = {'color': 'red', 'age': 42} 
>>> for k, v in spam.items(): 
print('Key: ' +k + ' Value: ' + str(v)) 





Key: age Value: 42 
Key: color Value: red 


5.1.3 ”检查 字典 中 是 否 存在 键 或 值 











可 忆 一 下 ， 前 一 章 提 到 ，in 和 not in 操作 符 可 以 检查 值 是 否 存 在 了 















































列表 中 。 也 








可 以 利用 这 些 操作 符 ， 检 查 某 个 键 或 值 是 否 存 在 于 字典 中 。 在 交互 式 环境 中 输入 以 





下 代码 : 

>>> spam = {'name': 'Zophie', 'age': 7} 
>>> 'name' in spam.keys() 

True 

>>> 'Zophie' in spam.values() 
True 

>>> 'color' in spam.keys() 
False 

>>> 'color' not in spam.keys() 
True 

>>> 'color' in spam 

False 














请 注意 , 在 前 面 的 例子 中 , 'color' in spam 本 质 上 是 一 个 简写 版 本 。 











相当 于 'color' 








in spam.keys()。 这 种 情况 总 是 对 的 :如 果 想 要 检查 一 个 值 是 否 为 字典 ! 





























以 用 关键 字 in (或 not in)， 作 用 于 该 字典 本 身 。 








5.1.4 get() 方 法 
































的 键 ， 束 可 




















在 访问 一 个 键 的 值 之 前 ， 检 查 该 键 是 否 存 在 于 字典 中 ， 这 很 太 烦 。 好 在 ， 字 典 有 
个 getO 方 法 ， 它 有 两 个 参数 : 要 取得 其 值 的 键 ， 以 及 如 果 该 键 不 存在 时 ,返回 的 备用 值 。 
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在 交互 式 环境 中 输入 以 下 代码 ; 


>>> picnicItems = {' apples': 5, 'cups': 2} 

>>> 'I am bringing ' + str(picnicItems.get('cups', 0)) + ' cups.' 
'I am bringing 2 cups.， 

>>> 'I am bringing ' + str(picnicItems.get('eggs', 0)) + ' eggs.' 
'I am bringing 0 eggs.， 


因为 picnicItems 字典 中 没有 'egg' 键 ，get0 方 法 返回 的 默认 值 是 0。 不 使 用 get0， 
代码 就 会 产生 一 个 错误 消息 ， 就 像 下 面 的 例子 : 


>>> picnicItems = {'apples': 5, 'cups': 2} 
>>> 'I am bringing ' + str(picnicItems['eggs']) + ' eggs.' 
Traceback (most recent call last): 
File "<pyshell#34>", line 1, in <module> 
'I am bringing ' + str(picnicIitems['eggs']) + ' eggs.’ 
KeyError: 'eggs' 





















































5.1.5 setdefault() 方 法 
你 常常 需要 为 字典 中 某 个 键 设置 一 个 默认 值 ， 当 该 键 没有 任何 值 时 使 用 它 。 代 
码 看 起 来 像 这 样 : 
spam = {'name': 'Pooka', 'age': 5} 


if 'color' not in spam: 
spam['color'] = 'black’ 


setdefault0 方 法 提供 了 一 种 方式 ， 在 一 行 中 完成 这 件 事 。 传 递 给 该 方法 的 第 一 
个 参数 ， 是 要 检查 的 键 。 第 二 个 参数 ， 是 如 果 该 键 不 存在 时 要 设置 的 值 。 如 果 该 键 
确实 存在 ， 方 法 就 会 返回 键 的 值 。 在 交互 式 环 境 中 输入 以 下 代码 : 









































































































































>>> Spam = {'name': 'Pooka', 'age': 5} 

>>> spam.setdefault('color', 'black') 

‘black’ 

>>> spam 

{'color': 'black', 'age': 5, 'name': 'Pooka'} 
>>> spam.setdefault('color', 'white') 

‘black’ 

>>> spam 

{'color': 'black', 'age': 5, 'name': 'Pooka'} 


SN 


第 一 次 调用 setdefault0 时 ,spam 变量 中 的 字典 变 为 {'color': black, 'age': 5, name': 
Pooka']} 。 该 方法 返回 值 black'， 因 为 现在 该 值 被 赋 给 键 'color 。 当 spam.setdefault(color， 
'white) 接 下 来 被 调用 时 ， 该 键 的 值 “ 没 有 ”被 改变 成 white'， 因 为 spam 变量 已 经 有 
名 为 'color' 的 键 。 

setdefault0 方 法 是 一 个 很 好 的 快捷 方式 ， 可 以 确保 一 个 键 存 在 。 下 面 有 一 个 小 
程序 ， 计 算 一 个 字符 串 中 每 个 字符 出 现 的 次 数 。 打 开 一 个 文件 编辑 器 窗口 ， 输 入 以 
下 代码 ， 保 存 为 characterCount.py: 


message = 
count = {} 






















































































"It was a bright cold day in April, and the clocks were striking thirteen. 
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for character in message: 
count .Setdefault(character，0) 
count[character] = count[character] + 1 


print(count) 

程序 循环 迭代 message 字符 串 中 的 每 个 字符 , 计算 每 个 字符 出 现 的 次 数 。setdefaultO0 
方法 调用 确保 了 键 存 在 于 count 字典 中 (默认 值 是 0)， 这 样 在 执行 count[character] = 
count[character] + 1 时 ， 就 不 会 抛 出 KeyError 错误 。 程 序 运行 时 ， 输 出 如 下 : 


A Ty rr SA Te Na a 
时 


从 输出 可 以 看 到 ,小 写字 母 c 出 现 了 3 次 , 空格 字符 出 现 了 13 次 , 大 写字 母 A 
出 现 了 1 次。 无 论 message 变量 中 包含 什么 样 的 字符 串 ， 这 个 程序 都 能 工作 ， 即 使 
该 字符 串 有 上 百 万 的 字符 ! 
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5.2 ”漂亮 打印 


如 果 程序 中 导入 pprint 模块 ， 就 可 以 使 用 pprint0 和 pformat0 冰 数 ， 它 们 将 “漂亮 
打印 ”一 个 字典 的 字 。 如 果 想 要 字典 中 表 项 的 显示 比 print0 的 输出 结果 更 干净 ， 这 就 有 
] 了。 修改 前 面 的 characterCount.py 程序 ， 将 它 保 存 为 prettyCharacterCount.py。 


import pprint 

message = 'It was a bright cold day in April, and the clocks were striking 
thirteen.’ 

count = {} 
















































































Se 











for character in message: 
count.setdefault (character, 0) 
count[character] = count[character] + 1 


pprint.pprint(count) 


这 一 次 ， 当 程序 运行 时 ， 输 出 看 起 来 更 干净 ， 键 排 过 序 。 
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< 三 中 W5 
一 DOO 


: 1} 
如 果 字 典 本 身 包含 肉 套 的 列表 或 字典 ，pprint.pprintO 函 数 就 特别 有 用 。 

如 果 和 希望 得 到 漂亮 打印 的 文本 作为 字符 串 ， 而 不 是 显示 在 屏幕 上 ， 那 就 调用 
pprint.pformat()。 下 面 两 行 代码 是 等 价 的 : 


pprint.pprint(someDictionaryValue) 
print(pprint.pformat(someDictionaryValue)) 


























5.3 ”使 用 数据 结构 对 真实 世界 建 模 


甚至 在 因特网 之 前 ， 人 们 也 有 办 法 与 世界 另 一 边 的 某 人 下 一 盘 国际 象棋 。 每 个 
棋 手 在 自己 家 里 放 好 一 个 棋盘 ， 然 后 轮流 向 对 方 寄 出 明信片 ， 描 述 每 一 着 棋 。 要 做 
到 这 一 点 ， 棋 手 需要 一 种 方法 ， 无 二 义 地 描述 棋盘 的 状态 ， 以 及 他 们 的 着 法 。 

在 “代数 记 谱 法 ”中 ， 棋 盘 空 间 由 一 个 数字 和 字母 坐标 确定 ， 如 图 5-1 所 示 。 


站 春生 国 岂 国 为 国 s 
国 2 了 欧 2 网 4 网 £47 
力图 国 。 






































i 
5-1 代数 记 谱 法 中 棋盘 的 坐标 


棋子 用 字母 表示 : K 表示 王 ，Q 表示 后 ，R 表示 车 ，B 表示 象 ，N 表示 马 。 描 述 
次 移动 ， 用 棋子 的 字母 和 它 的 目的 地 坐标 。 一 对 这 样 的 移动 表示 一 个 回合 《和 白 方 先 下 )， 
例如 , 棋谱 2. Nf3 Nc6 表明 在 棋局 的 第 二 回合 ， 白 方 将 马 移动 到 他 ， 黑 方 将 马 移动 到 c6。 

代数 记 谱 法 还 有 更 多 内 容 ， 但 要 点 是 你 可 以 用 它 无 二 义 地 描述 象棋 游戏 ， 不 需 
要 站 在 棋盘 前 。 你 的 对 手 甚至 可 以 在 世界 的 另 一 边 ! 实际 上 ， 如 果 你 的 记忆 力 很 好 ， 
甚至 不 需要 物理 的 棋具 :只 需要 阅读 寄 来 的 棋子 移动 ， 更 新 心里 想 的 棋盘 。 

计算 机 有 很 好 的 记忆 力 。 现 在 计算 机 上 的 程序 ， 很 容易 存储 几 百 万 个 像 2. Nf3 
Nc6 这 样 的 字符 串 。 这 就 是 为 什么 计算 机 不 用 物理 棋盘 就 能 下 象棋 。 它 们 用 数据 建 
模 来 表示 棋盘 ， 你 可 以 编写 代码 来 使 用 这 个 模型 。 

这 里 就 可 以 用 到 列表 和 字典 。 可 以 用 它们 对 真实 世界 建 模 ， 例 如 棋盘 。 作 为 第 
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一 个 例子 ， 我 们 将 使 用 比 国际 象棋 简单 一 点 的 游戏 : 井 字 棋 。 

















5.3.1 井 字 棋盘 
井 字 棋 盘 看 起 来 像 一 个 大 的 井 字符 号 (#)， 有 9 个 空格 ,可 以 包含 X、O 或 空 。 
字典 表示 棋盘 ， 可 以 为 每 个 空格 分 配 一 个 字符 串 键 ， 如 图 5-2 所 示 。 
























































要 用 






'top-R' 





'top-M' 





'top-L" 





5-2 井 字 棋盘 的 空格 和 它们 对 应 的 键 
可 以 用 字符 串 值 来 表示 ， 棋 盘 上 每 个 空格 有 什么 : X'、'O 或 ' (空格 字符 )。 因 此 ， 


需要 存储 9 个 字符 串 。 可 以 用 一 个 字典 来 做 这 事 。 带 有 键 top-R' 的 字符 串 表 示 右 上 角 ， 
带 有 键 low-L 的 字符 串 表 示 左 下 角 ， 带 有 键 mid-M 的 字符 串 表 示 中 间 ， 以 此 类 推 。 
这 个 字典 就 是 表示 井 字 棋盘 的 数据 结构 。 将 这 个 字典 表示 的 棋盘 保存 在 名 为 


theBoard 的 变量 中 。 打 开 一 个 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 





















































































































































ticTacToe.py: 

theBoard = {'top-L': ' ', 'top-M': ' ', 'top-R': 
‘mid-L': " ', mid-M': " ', 'mid-R': " 
‘low-L': " ', 'low-M': ' ', 'low-R': ' '} 





























保存 在 theBoard 变量 中 的 数据 结构 ， 表 示 了 图 5-3 中 的 井 字 棋盘 。 














图 5-3 一 个 空 的 井 字 棋 盘 
因为 heBoard 变量 中 每 个 键 的 值 都 是 单个 空格 字符 , 所 以 这 个 字典 表示 一 个 完 
全 干净 的 棋盘 。 如 果 玩 家 X 选择 了 中 间 的 空格 ， 就 可 以 用 下 面 这 个 字典 来 表示 棋盘 : 
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theBoard = { top-L': ”top-M: ' ', 'top-R': ' ',， 
‘mid-L': " ', 'mid-M': 'X', 'mid-R': ' '， 
'low-L': " ', 'low-M': ' ', 'low-R': ' '} 


theBoard 变量 中 的 数据 结构 现在 表示 图 5-4 中 的 井 字 棋盘 。 


5-4 第 一 着 
一 个 玩家 O 获胜 的 棋盘 上 ， 他 将 O 横贯 棋盘 的 顶部 ， 看 起 来 像 这 样 
theBoard = { top-L': '0', 'top-M': '0', top-R' 0， 
‘mid-L': 'X', 'mid-M':  X 'mid-R': ' ',， 
'low-L': " ', 'low-M': ' ', 'low-R': 'X'} 


theBoard 变量 中 的 数据 结构 现在 表示 图 5-5 中 的 井 字 棋盘 。 


OIOIO 
XIX 
X 


5-5 玩家 〇 获胜 


当然 ， 玩 家 只 看 到 打印 在 屏幕 上 的 内 容 ， 而 不 是 变量 的 内 容 。 让 我 们 创建 一 个 
函数 ,将 棋盘 字典 打印 到 屏幕 上 。 将 下 面 代 码 添加 到 ticTacToe.py( 新 代码 是 黑体 的 ); 





































































































theBoard = { top-L': ”top-M: ' ', 'top-R': ' ', 
‘mid-L': ' ', mid-M': ' ', 'mid-R': ' ', 
'low-L': " ', 'low-M': ' ', 'low-R': ' '} 
def printBoard(board): 
print(board['top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 
print('-+-+-') 
print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 
print('-+-+-') 
print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
printBoard(theBoard) 





运行 这 个 程序 时 ，printBoard0 将 打印 出 空白 井 字 棋盘 。 
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printBoard0 函 数 可 以 处 理 传 入 的 任何 


theBoard = {'top-L': '0', 'top-M': '0'， 
'X', 'mid-R': ' ', 'low-L': ' ', 'low-M': ' '， 





字 棋 数 据 结 构 .尝试 将 代码 改 成 以 下 的 样子 : 


'top-R': '0', 'mid-L': 
'low-R': ' 











‘Xx', ‘mid-M': 


def printBoard(board ) : 
print(board['top-L'] + “| ”+ 
print('-+-+-') 
print(board['mid-L'] + 
print('-+-+-') 
print(board['low-L'] + 

printBoard(theBoard) 


现在 运行 该 程序 ， 
0|1010 
-+-+- 
XI|XI| 
-+-+- 
| |X 


因为 你 创建 了 一 个 数据 结构 来 表示 井 字 棋 盘 , 编写 了 printBoard0 中 的 代码 来 解 
释 该 数据 结构 ， 所 以 就 有 了 一 个 程序 ， 对 井 字 棋盘 进行 了 “ 建 模 ”。 也 可 以 用 不 同 
的 方式 组 织 数 据 结构 〈 例 如 ， 使 用 TOP-LEFT' 这 样 的 键 来 代替 'top-L 7)， 但 只 要 代码 
能 处 理 你 的 数据 结构 ， 就 有 了 正确 工作 的 程序 。 
例如 ，printBoard0 函 数 预 期 井 字 棋 数 据 结构 是 一 个 字典 ， 包 含 所 有 9 个 空格 的 
键 。 假 如 传 入 的 字典 缺少 'mid-L' 键 ， 程 序 就 不 能 工作 了 。 


ololo 


-+-+- 


board['top-M'] + '|' + board['top-R']) 


| + board['mid-M'] + '|' + board['mid-R']) 


| + board['low-M'] + '|' + board['low-R']) 





新 棋盘 将 打印 在 屏幕 上 。 





























































































































Traceback (most recent 


File "ticTacToe.py" 
printBoard(theBoa 
File "ticTacToe.py" 
print(board[ 'mid- 


KeyError: 


‘mid-L" 


call last): 

，1line 10, in <module> 

rd) 

，1line 6, in printBoard 

L'] + | + board['mid-M'] + “| 





+ board[ 'mid-R']) 




















现在 让 我 们 添加 代码 ， 允 许 玩 家 输入 他 们 的 着 法 。 修 改 ticTacToe.py 程序 如 下 所 示 : 


theBoard = {'top-L': ' ', 'top-M': ' '， 
", "mid-R': ' ', 'low-L': ' ', 'low-M': ' '， 


'top-R': ”mid-L': ' ', ‘mid-M': ' 


'low-R': ' '} 


def printBoard(board ) : 
print(board['top-L'] + “| 
print('-+-+-') 
print(board[ 'mid-L'] + “| 
print('-+-+-') 
print(board['low-L'] + “| 

turn = 'X' 

for i in range(9): 
printBoard(theBoard) 


+ board['top-M'] + '|' + board['top-R']) 


+ board['mid-M'] + '|' + board['mid-R']) 


+ board['low-M'] + '|' + board['low-R']) 
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Goe@e 


print('Turn for ' + turn + 
move = input() 
theBoard[move] = turn 
if turn == 'X': 

turn = '0' 
else: 
turn = 'X' 
printBoard(theBoard) 


'. Move on which space?') 








新 的 代码 在 每 一 步 新 的 着 法 之 前 ， 打 印 出 棋盘 @， 获 取 当 前 棋 手 的 着 法 @， 相 
应 地 更 新 棋盘 日， 然后 改变 当前 棋 手 @， 进 入 到 下 一 着 。 
































Th 


运行 该 程序 ， 它 看 起 来 像 这 档 





for xX. Move on which space? 


| ba! 


for O. Move on which space? 


已 


' ' ' ' ' 
一 + 一 + 一 cc 一 + 一 + 一 Phc 一 + 一 + 一 
1 1 三 与 x 1 1 

人 


© 


0| |X 


low-M 


0|X|X 


这 不 是 一 个 完整 的 井 字 棋 游 戏 《〈 例 如 ， 它 并 不 检查 玩家 是 否 获胜 )， 但 这 已 足 























够 展示 如 何在 程序 中 使 用 数据 结构 。 















































如 果 你 很 好 奇 ， 完整 的 井 字 棋 程序 的 源 代码 在 网 上 有 介绍 ， 网 址 是 


http://nostarch.com/automatestuff/。 





5.3.2 ” 谋 套 的 字典 和 列表 


对 井 字 棋盘 建 模 相当 简单 : 棋盘 只 需要 



































一 个 字典 ， 包 含 9 个 键 值 对 。 当 你 对 复 
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的 事物 建 模 时 ， 可 能 发 现 字 典 和 列表 
一 组 有 序 的 值 ， 字 上 典 适合 于 
他 字典 ， 
据 结构 ， 计 算 所 有 客人 带 来 的 食物 的 总 数 。 

































































allGuests = {'Alice': { apples': 5, 'pretzels': 12}, 
'Bob': {'ham sandwiches': 3, 'apples': 2}， 
'Carol': {'cups': 3, 'apple pies': 1}} 


def totalBrought(guests, item): 
numBrought = 0 
for k, v in guests.items(): 
numBrought = numBrought + v.get(item, 0) 
return numBrought 


®e 


print('Number of things being brought:') 


包含 关联 的 键 与 值 。 例 如 ， 下 面 的 程序 使 用 字典 包含 








需要 包含 其 他 字典 和 列表 。 列 表 适 用 于 包 











于 记录 谁 为 野餐 带 来 了 什么 食物 。totalBrought0 函 数 可 以 读 取 这 个 数 


print(' - Apples ' + str(totalBrought(allGuests, 'apples'))) 

print(' - Cups ' + str(totalBrought(allGuests, 'cups'))) 

print(' - Cakes ' + str(totalBrought(allGuests, 'cakes'))) 

print(' - Ham Sandwiches ' + str(totalBrought(allGuests, 'ham sandwiches'))) 
print(' - Apple Pies ' + str(totalBrought(allGuests, 'apple pies'))) 














在 totalBroughtO 函 数 ， 


, for 循环 途 代 guests 中 的 每 个 键 值 对 @@。 在 这 个 循环 里 ， 





客人 的 名 字 字 符 串 赋 给 k， 他 们 带 来 的 野餐 食物 的 字典 赋 给 v。 如 果 食 物 参数 是 字 











和 典 中 存在 的 键 ， 它 的 值 (数量 ) 就 添加 到 numBrought@ 。 九 


就 返回 0， 添加 到 numBrought。 


该 程序 的 输出 像 这 样 : 


Number of things being brought: 
- Apples 7 

- Cups 3 

- Cakes 0 

- Ham Sandwiches 3 

- Apple Pies 1 














这 似乎 对 一 个 非常 简单 的 东西 建 模 ， 你 可 能 认为 不 需要 费事 去 写 
到 这 一 点 。 但 是 要 认识 到 ， 这 个 函数 totalBroughtO 可 以 轻易 地 处 到 








包含 数 干 名 客人 ， 每 个 人 都 带 来 了 “ 数 干 














'” 不 同 的 野餐 食物 。 





[ 果 它 不 是 键 ，get0O 方 法 

















个 程序 来 做 






































构 来 保存 信息 ， 并 使 用 totalBroughtO 函 数 ， 


你 可 





























就 会 节约 大 量 的 时 间 ! 
以 用 自己 喜欢 的 任何 方法 ， 用 数据 结构 对 事物 建 模 ， 只 要 程 ) 











这 样 用 这 种 数据 结 





一 个 字典 ， 其 中 

















这 中 其 他 代码 能 够 


正确 处 理 这 个 数据 模型 。 在 刚 开 始 编程 时 ， 不 需要 太 担 心 数据 建 模 的 “正确 ”方式 。 随 



























































着 经 验 增加 ， 你 可 能 会 得 到 更 有 效 的 模型 





5.4 


小 结 











在 本 章 中 ， 你 学 习 了 字典 的 所 有 相关 知识 。 列 











和 字典 是 这 权 








包含 多 个 值 ， 包 括 其 他 列表 和 字典 。 字 典 是 有 用 的 ， 
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4， 但 重要 的 是 ， 该 数据 模型 符合 程序 的 需要 。 


的 值 ， 它 们 可 以 








因为 你 可 以 把 一 些 项 〈 键 ) 映 


射 到 另 一 些 项 〈 值 )， 它 不 像 列 表 ， 只 包含 一 系列 有 序 的 值 。 字 典 中 的 值 是 通过 方 
括号 访问 的 ， 像 列表 一 样 。 字 典 不 是 只 能 使 用 整数 下 标 ， 而 是 可 以 用 各 种 数据 类 型 
作为 键 : 整 型 、 浮 点 型 、 字 符 串 或 元 组 。 通 过 将 程序 中 的 值 组 织 成 数据 结构 ， 你 可 
以 创建 真实 世界 事物 的 模型 。 井 字 棋 盘 就 是 这 样 一 个 例子 。 

这 就 介绍 了 Python 编程 的 所 有 基本 概念 ! 在 本 书后 面 的 部 分 , 你 将 继续 学 习 一 
些 新 概念 ， 但 现在 你 已 学 习 了 足够 多 的 内 容 ， 可 以 开始 编写 一 些 有 用 的 程序 ， 让 一 
些 任务 自动 化 。 你 可 能 不 觉得 自己 有 足够 的 Python 知识， 来 实现 页 面 下 载 、 更 新 电 
子 表格 ,或 发 送 文 本 消息 。 但 这 就 是 Python 模块 要 干 的 事 ! 这 些 模块 由 其 他 程序 员 
编写 ， 提 供 了 一 些 函 数 ， 让 这 些 事情 变 得 容易 。 所 以 让 我 们 学 习 如 何 编写 真正 的 程 
序 ， 实 现 有 用 的 自动 化 任务 。 
























































































































































































































































1. 空 字典 的 代码 是 怎样 的 ? 
2. 一 个 字典 包含 键 Yfow' 和 值 42， 看 起 来 是 怎样 的 ? 
3. 字典 和 列表 的 主要 区 别 是 什么 ? 
4. 如 果 spam 是 {bar: 100}， 你 试图 访问 spam[foo]， 会 发 生 什 么 ? 
5. 如 果 一 个 字典 保存 在 spam 中 ， 表 达 式 'cat in spam 和 'cat' in spam.keys() 之 间 
的 区 别 是 什么 ? 
6. 如 果 一 个 字典 保存 在 变量 中 ， 表 达 式 'cat' in spam 和 'cat' in spam.valuesO 之 间 
的 区 别 是 什么 ? 
7. 下 面 代码 的 简洁 写法 是 什么 ? 


if 'color' not in spam: 
spam['color'] = 'black’ 


8. 什么 模块 和 函数 可 以 用 于 “漂亮 打印 ”字典 值 ? 













































































作为 实践 ， 编 程 完成 下 列 任务 。 





5.6.1 好玩 游戏 的 物品 清 

你 在 创建 一 个 好 玩 的 视频 游戏 。 用 于 对 玩家 物品 清单 建 模 的 数据 结构 是 一 个 字 
。 其 中 键 是 字符 串 ， 描 述 清单 中 的 物品 ， 值 是 一 个 整 型 值 ， 说 明 玩 家 有 多 少 该 物 
。 例 如 ， 字 典 值 {rope': 1, torch': 6, 'gold coin': 42, 'dagger': 1, 'arrow': 12} 意 味 着 玩 
有 1 条 绳索 、6 个 火把 、42 枚 金币 等 。 

写 一 个 名 为 displayInventory0 的 函数 ， 它 接受 任何 可 能 的 物品 清单 ， 并 显示 如 下 : 
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法 颈 将 




















Inventory : 











12 arrow 
42 gold coin 
1 rope 
6 torch 
1 dagger 
Total number of items: 62 
提示 你 可 以 使 用 for 循环 ， 遍 历 字 典 中 所 有 的 键 。 

# inventory.py 
stuff = {'rope': 1, 'torch': 6, 'gold coin': 42, 'dagger': 1, 'arrow': 12} 
def displayInventory(inventory): 

print("Inventory:") 

item total = 0 

for k, v in inventory.items() : 

print(str(v) + ' ' + k) 
item total += V 

print("Total number of items: " + str(item total)) 

displayInventory(stuff) 
5.6.2 ”列表 到 字典 的 函数 ， 针 对 好 玩 游戏 物品 清单 

假设 征服 一 条 龙 的 战利品 表示 为 这 样 的 字符 串 列 表 : 

dragonLoot = ['gold coin', 'dagger', 'gold coin', 'gold coin', 'ruby' 


写 一 个 名 为 addToInventory(inventory，addedItems) 的 函数 ， 其 ， 




















inventory 参数 
























































是 一 个 字典 , 表示 玩家 的 物品 清单 〈 像 前 面 项 目 一 样 ), addedItems 参数 是 一 个 列表 ， 
就 像 dragonLoot。 
addToInventory0O 函 数 应 该 返回 一 个 字典 ， 表 示 更 新 过 的 物品 清单 。 请 注意 ， 列 





表 可 以 包含 多 个 同样 的 项 。 你 的 代码 看 起 来 可 能 像 这 

















文 样 ， 











def addToInventory(inventory，addedItems ) : 


# your code goes here 


inv = {'gold coin': 42, 'rope': 1} 
dragonLoot = ['gold coin', 'dagger', 
inv = addToInventory(inv, dragonLoot) 


displayInventory (inv) 
前 面 的 程序 (加 上 前 一 个 项 目 


Inventory: 
45 gold coin 
1 rope 

1 ruby 

1 dagger 





























Total number of items: 48 
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‘gold coin', 'gold coin', 'ruby'] 


中 的 displayInventory0 函 数 ) 将 输出 如 下 : 


*0s 


字符 串 操作 























文本 是 程序 需要 处 




















的 最 常见 的 数据 形式 。 你 已 经 知道 如 
































何 用 + 操作 符 连 接 两 个 字符 串 ， 但 能 做 的 事情 还 要 多 得 多 。 本 
以 从 字符 串 中 提取 部 分 字符 串 ， 添 加 或 删除 空 


字符 ， 将 字母 








转换 成 小 写 或 大 写 ， 检 查 字 符 串 的 格式 是 否 正 确 。 你 甚至 可 以 











编写 Python 代码 访问 剪贴 板 ， 复 制 或 粘贴 文本 。 
在 本 章 中 ， 你 将 学 习 所 有 这 些 内 容 和 更 多 内 容 。 然 后 你 会 









































看 到 两 个 不 同 的 编程 项 目 : 一 个 是 简单 的 口令 





将 枯燥 的 文本 格式 化 工作 自 














6.1 处理 字符 串 








动 化 。 





管理 器 ， 另 一 个 


让 我 们 来 看 看 ，Python 提供 的 写 入 、 打 印 和 访问 字符 串 的 一 些 方法 。 











6.1.1 字符 串 字面 量 


在 Python 中 输入 字符 















































a 值 相当 简单 的 : 它们 以 单 引 号 开始 和 结 
能 在 字符 串 内 使 用 单 引 号 呢 ? 输入 That is Alice's cat.' 是 不 行 的 ， 因 














个 字符 串 在 Alice 之 后 就 结束 了 ， 剩 下 的 《〈s cat.') 是 无 效 的 Python 代码 。 好 在 ， 











束 。 但 是 如 何 才 








为 Python 认为 这 
Dy 

















几 种 方法 来 输入 字符 串 。 





6.1.2 双 引 号 
字符 串 可 以 用 双 引 号 开始 和 结束 ,就 像 用 单 引号 一 样 。 使 用 双 引 号 的 一 个 好 处 ， 
就 是 字符 串 中 可 以 使 用 单 引 号 字符 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> Spam = "That is Alice's cat." 
因为 字符 串 以 双 引 号 开始 , 所 以 Python 知道 单 引 号 是 字符 串 的 一 部 分 ， 而 不 是 
表示 字符 串 的 结束 。 但 是 ， 如 果 在 字符 串 中 既 需 要 使 用 单 引号 又 需要 使 用 双 引 号 ， 
那 就 要 使 用 转 义 字符 。 


6.1.3” 转 义 字 符 
“ 转 义 字符 ”让 你 输入 一 些 字符 ， 它 们 用 其 他 方式 是 不 可 能 放 在 字符 串 里 的 。 转 义 
字符 包含 一 个 倒 斜 杜 \), 紧 跟 着 是 想 要 添加 到 字符 串 中 的 字符 。( 尽 管 它 包含 两 个 字符 ， 
但 大 家 公认 它 是 一 个 转 义 字符 。) 例如 ， 单 引号 的 转 义 字符 是 *。 你 可 以 在 单 引 号 开始 和 
结束 的 字符 串 中 使 用 它 。 为 了 看 看 转 义 字符 的 效果 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = 'Say hi to Bob\'s mother.' 






































































































































































































































Python 知道 ， 因 为 Bob\'s 中 的 单 引 号 有 一 个 倒 斜 枉 ， 所 以 它 不 是 表示 字符 串 结 
束 的 单 引号 。 转 义 字符 \ 和 "让 你 能 在 字符 串 中 加 入 单 引 号 和 双 引 号 。 
表 6-1 列 出 了 可 用 的 转 义 字 符 。 
表 6-1 转 义 字符 

















转 义 字符 打印 为 
\ 单 引号 
双 引 号 
vt 制 表 符 
换行 符 
\ 倒 斜 杠 











在 交互 式 环境 中 输入 以 下 代码 ; 


>>> print("Hello there!\nHow are you?\nI\'m doing fine.") 
Hello there! 

How are you? 

I'm doing fine. 





6.1.4 ”原始 字符 串 

可 以 在 字符 串 开 始 的 引号 之 前 加 上 r， 使 它 成 为 原始 字符 串 。“ 原 始 字符 串 ” 完 
全 忽略 所 有 的 转 义 人 字符， 打印 出 字符 串 中 所 有 的 倒 斜 杠 。 例 如 ， 在 交互 式 环境 中 输 
入 以 下 代码 : 
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>>> print(r'That is Carol\'s cat.') 
That is Carol\'s cat. 


因为 这 是 原始 字符 串 ，Python 认为 倒 斜 杠 是 字符 串 的 一 部 分 ， 而 不 是 转 义 字符 
的 开始 。 如 果 输 入 的 字符 串 包含 许 多 倒 斜 枉 ， 比 如 下 一 章 中 要 介绍 的 正则 表达 式 字 
符 串 ， 那 么 原始 字符 串 就 很 有 用 。 









































6.1.5 用 三 重 引号 的 多 行 字符 串 

虽然 可 以 用 n 转 义 字 符 将 换行 放 入 一 个 字符 串 , 但 使 用 多 行 字符 串通 常 更 容易 。 
在 Python 中 ， 多 行 字符 串 的 起 止 是 3 个 单 引号 或 3 个 双 引 号 。“ 三 重 引 号 ”之 间 的 
所 有 引号 、 制 表 符 或 换行 ， 都 被 认为 是 字符 串 的 一 部 分 。Python 的 代码 块 缩 进 规则 
不 适用 于 多 行 字符 串 。 

打开 文件 编辑 器 ， 输 入 以 下 代码 : 


print('''Dear Alice， 












































wy 











Ud 





学 

































































Eve's cat has been arrested for catnapping, cat burglary, and extortion. 














Sincerely, 
Bob''') 

将 该 程序 保存 为 catnapping.py 并 运行 。 输 出 看 起 来 像 这 样 : 
Dear Alice， 


Eve's cat has been arrested for catnapping, cat burglary, and extortion. 


Sincerely, 
Bob 


请 注意 ，Eve's 中 的 单 引 号 字符 不 需要 转 义 。 在 原始 字符 串 中 ， 转 义 单 引号 和 双 
引号 是 可 选 的。 下 面 的 printO 调 用 将 打印 出 同样 的 文本 ， 但 没有 使 用 多 行 字符 串 : 


print('Dear Alice,\n\nEve\'s cat has been arrested for catnapping, cat 
burglary, and extortion.\n\nSincerely,\nBob') 






























































6.1.6 ”多 行 注释 
虽然 井 号 字符 〈(#) 表示 这 一 行 是 注释 ， 但 多 行 字符 串 常 常用 作 多 行 注释 。 下 
面 是 完全 有 效 的 Python 代码 : 


"""This is a test Python program. 
Written by Al Sweigart alQinventwithpython.com 















































This program was designed for Python 3, not Python 2. 


def spam(): 
"""This is a multiline comment to help 
explain what the spam() function does.""" 
print('Hello!') 
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6.1.7 ”字符 串 下 标 和 切片 
字符 串 像 列 表 一 样 ， 使 用 下 标 和 切片 。 可 以 将 字符 串 'Hello world! 看 成 是 一 个 
列表 ， 字 符 串 中 的 每 个 字符 都 是 一 个 表 项 ， 有 对 应 的 下 标 。 
































1 20 Wo rm Ld 1 
234 56 7 89 1011 

字符 计数 包含 了 空格 和 感叹 号 , 所 以 'Hello world! 有 12 个 字符 , H 的 下 标 是 0,! 
的 下 标 是 11。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = 'Hello wor1d! 
>>> Spam[0] 

'H! 

>>> spam[4] 

40， 

>>> spam[-1] 

111 























>>> Spam[0:5] 
'Hello' 
>>> spam[:5] 
'Hello' 
>>> spam[6:] 
"Wor1dl 


如 果 指 定 一 个 下 标 ， 你 将 得 到 字符 串 在 该 处 的 字符 。 如 果 用 一 个 下 标 和 另 一 个 
下 标 指定 一 个 范围 ,开始 下 标 将 被 包含 ,结束 下 标 则 不 包含 。 因 此 ,如 果 spam 是 'Hello 
worldl'"，spam[0:5] 就 是 'Hello'"。 通 过 spam[0:5] 得 到 的 子 字 符 串 ， 将 包含 spam[0] 到 
spam[4] 的 全 部 内 容 ， 而 不 包括 下 标 $ 处 的 空格 。 
请 注意 ， 字 符 串 切片 并 没有 修改 原来 的 字符 串 。 可 以 从 一 个 变量 中 获取 切片 ， 
记录 在 另 一 个 变量 中 。 在 交互 式 环境 中 输入 以 下 代码 : 







































































>>> Spam = 'Hello world!' 
>>> fizz = spam[0:5] 

>>> fizz 

'Hello’ 

















通过 切片 并 将 结果 子 
串 和 子 字 符 串 ， 便 于 快速 














字符 串 保 存在 另 一 个 变量 中 ， 就 可 以 同时 拥有 完整 的 字符 
简单 的 访问 。 


























6.1.8 ”字符 串 的 in 和 not in 操作 符 
像 列表 一 样 ，in 和 not in 操作 符 也 可 以 用 于 字符 串 。 用 ip 或 not in 连接 两 个 字 
符 串 得 到 的 表达 式 ， 将 求 值 为 布尔 值 True 或 False。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello' in 'Hello World' 




















True 

>>> 'Hello' in 'Hello' 

True 

>>> 'HELLO' in 'Hello World' 
False 

>>> '' in 'spam’ 
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6.2 


True 
>>> 'cats' not in 'cats and dogs' 
False 


这 些 表达 式 测 试 第 一 个 字符 串 〈 精 确 匹 配 ， 区 分 大 小 写 ) 是 否 在 第 二 个 字符 串 中 。 






































有 用 的 字符 串 方法 





一 些 字符 串 方法 会 分 析 字符 串 , 或 生成 转变 过 的 字符 串 。 本 节 介 绍 了 这 些 方法 ， 
你 会 经 常 使 用 它们 
Ev 和 个] o 









































6.2.1 字符 串 方法 upper()、lower()、isupper() 和 islower() 


upper0 和 lowerO 字 答 串 方法 返回 一 个 新 字符 串 ， 其 中 原 字 答 串 的 所 有 字母 都 被 
相应 地 转换 为 大 写 或 小 写 。 字 符 串 中 非 字母 字符 保持 不 变 。 
在 交互 式 环境 中 输入 以 下 代码 : 






































>>> Spam = 'Hello world!' 
>>> Spam = Spam.upper() 
>>> Spam 


“HELLO WORLDI 

>>> Spam = Spam.1Lower() 
>>> Spam 

‘hello wor1d 


请 注意 ， 这 些 方法 没有 改变 字符 串 本 身 ， 而 是 返回 一 个 新 字符 串 。 如 果 你 希望 改 
变 原来 的 字符 串 ， 就 必须 在 该 字符 串 上 调用 upper0 或 lower0， 然 后 将 这 个 新 字符 串 
赋 给 保存 原来 字符 串 的 变量 。 这 就 是 为 什么 必须 使 用 spam = spam.upper0， 才 能 改变 
spam 中 的 字符 串 ， 而 不 是 仅仅 使 用 spam.upperO 〈 这 就 好 比 ， 如 果 变 量 eggs 中 包含 
值 10， 写 下 eggs + 3 并 不 会 改变 eggs 的 值 ， 但 是 eggs = eggs + 3 会 改变 egg 的 值 )。 
如 果 需 要 进行 大 小 写 无 关 的 比较 , upper0 和 lower0 方 法 就 很 有 用 。 字符 串 'great' 
和 'GREat' 彼 此 不 相等 。 但 在 下 面 的 小 程序 中 ， 用 户 输入 Great、GREAT 或 grEAT 都 
没关系 ， 因 为 字符 串 首先 被 转换 成 小 写 。 
print('How are you?') 
feeling = input() 
If feeling.lower() == 'great': 
print('I feel great too.') 


else: 
print('I hope the rest of your day is good.') 


在 运行 该 程序 时 ， 先 显示 问题 ， 然 后 输入 变形 的 great， 如 GREat， 程 序 将 给 出 
输出 Ifeel great too。 在 程序 中 加 入 代码 ， 处 理 多 种 用 户 输入 情况 或 输入 错误 ， 诸 如 
大 小 写 不 一 致 ， 这 会 让 程序 更 容易 使 用 ， 且 更 不 容易 失效 。 


How are you? 
GREat 
I feel great too. 



























































到 




















































































































































































































第 6 章 字符 串 操作 99 














如 果 字 符 串 至 少 有 一 个 字母 ， 并 且 所 有 字母 都 是 大 写 或 小 号 ，isupperO 和 











islower() 方 法 就 会 相应 地 返回 
中 输入 以 下 代码 ， 并 注意 每 个 方法 调 


'Hello wor1d! 


>>> spam = 








回 False。 在 交互 式 环境 








布尔 值 True。 和 否则 ， 该 方法 返 
的 返回 值 : 






































>>> spam.islower() 


False 


>>> spam.isupper() 


False 


>>> “HELLO' .isupper() 


True 


>>> 'abc12345' .islower() 


True 


>>> “12345 


False 


.islower() 


>>> '12345' .isupper() 
False 














因为 upper0 和 lower(O 字 符 串 方法 本 身 返 

















的 字符 串 上 继续 调用 字符 串 方 法 。 这 样 做 的 表达 式 看 起 来 就 像 方法 调 














式 环境 中 输入 以 下 代码 : 


>>> 'Hello' .upper() 
“HELLO 

>>> 'Hello' 
'hello’ 

>>> 'Hello' 
“HELLO 

>>> “HELLO 
'hello’ 

>>> 'HELLO' 
True 





‘Upper().1lower() 
.Upper().lower().upper() 
.lower() 


.lower().islower() 


6.2.2 isX 字符 串 方法 








除了 islower0 和 isupper0， 还 有 几 个 字符 串 方 法 ， 












































回 字符 串 ， 所 以 也 可 以 在 “那些 ”返回 

















j 链 。 在 交互 











它们 的 名 字 以 is 开始。 这些 




































































































































































方法 返回 一 个 布尔 值 ， 描 述 了 字符 串 的 特点 。 下 面 是 一 些 常 用 的 isX 字符 串 方法 : 
。 isalpha() 返 回 True， 如 果 字 符 串 只 包含 字母 ， 并 且 非 空 ; 
。 isalnum() 返 回 True， 如 果 字 符 串 只 包含 字母 和 数字 ， 并 且 非 空 ; 
e。 isdecimal() 返 回 True， 如 果 字 符 串 只 包含 数字 字符 ， 非 空 ; 
。 isspace0 返 回 True， 如 果 字 符 串 只 包含 空格 、 制 表 符 和 换行 ， 并 且 非 空 ; 
。 口 itite0 返 回 True, 如 果 字 符 串 仅 包 含 以 大 写字 母 开 头 、 后 面 都 是 小 写字 母 的 单词 。 
在 交互 式 环境 中 输入 以 下 代码 ; 
>>> 'hello'.isalpha() 
True 
>>> 'hello123' .isalpha() 
False 
>>> 'hello123' .isalnum() 
True 
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>>> 'hello'.isalnum() 


True 

>>> “123' .isdecimal() 

True 

>>> ' '.isspace() 

True 

>>> 'This Is Title Case'.istitle() 
True 

>>> 'This Is Title Case 123'.istitle() 
True 

>>> 'This Is not Title Case'.istitle() 
False 

>>> 'This Is NOT Title Case Either'.istitle() 
False 











如 果 需 要 验证 用 户 输入 ，isX 字符 串 方 法 是 有 用 的 。 例 如 ， 下 面 的 程序 反复 询 
问 用 户 年 龄 和 口令 ， 直 到 他 们 提供 有 效 的 输入 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 
入 以 下 程序 ， 保 存 为 validateInput.py: 


While True : 
print('Enter your age:') 
age = input() 
if age.isdecimal() : 
break 
print(' Please enter a number for your age.') 
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while True: 
print('Select a new password (letters and numbers only):') 
password = input() 
if password.isalnum(): 
break 
print('Passwords can only have letters and numbers.') 


车 第 一 个 while 循环 中 ， 我 们 要 求 用 户 输入 年 龄 ， 并 将 输入 保存 在 age 中 。 如 
果 age 是 有 效 的 值 (数字 )， 我 们 就 跳出 第 一 个 while 循环 ， 转 向 第 二 个 循环 ， 询 问 
| 在 第 二 个 
while 循环 中 ， 我 们 要 求 输入 ， 客 户 的 输入 保存 在 password 中 。 如 果 输 入 是 字 
oo 于 是 告诉 用 户口 令 必 须 是 字母 
或 数字 ， 并 再 次 要 求 他 们 输入 口令 。 

如 果 运 行 ， 该 程序 的 输出 看 起 来 如 下 : 


Enter your age: 

forty two 

Please enter a number for your age. 

Enter your age: 

42 

Select a new password (letters and numbers only): 
secr3t! 

Passwords can only have letters and numbers. 
Select a new password (letters and numbers only): 
secr3t 


在 变量 上 调用 isdecimnal0 和 isalnum()， 我 们 就 能 够 测试 保存 在 这 些 变量 中 的 值 
是 否 为 数字 ， 是 否 为 字母 或 数字 。 这 里 ， 这 些 测 试 帮助 我 们 拒绝 输入 forty two， 接 
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受 42， 拒 绝 secr3t!， 接 受 secr3t。 


6.2.3 ”字符 串 方法 startswith() 和 endswith() 




















startswith() 和 endswith() 方 法 返回 True,， 如 果 它 们 所 调用 的 字符 串 以 该 方法 传 入 
的 字符 串 开 始 或 结束 。 和 否则 ， 方 法 返回 False。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello world!'.startswith('Hello') 
































True 

>>> 'Hello world!'.endswith('world!') 

True 

>>> 'abc123' .startswith('abcdef') 

False 

>>> 'abc123' .endswith('12') 

False 

>>> 'Hello world!'.startswith('Hello world!') 
True 

>>> 'Hello world!'.endswith('Hello world!') 
True 
































如 果 只 需要 检查 字符 串 的 开始 或 结束 部 分 是 否 等 于 另 一 个 字符 串 ， 而 不 是 整个 
字符 串 ， 这 些 方法 就 可 以 替代 等 于 操作 符 ==， 这 很 有 






































6.2.4 字符 串 方 法 join() 和 split() 








如 果 有 一 个 字符 串 列表 ， 需 要 将 它们 连接 起 来 ， 成 为 一 个 单独 的 字符 串 ，join() 
方法 就 很 有 用 。join() 方 法 在 一 个 字符 串 上 调用 ， 参 数 是 一 个 字符 串 列 表 ， 返 回 一 个 
字符 串 。 返 回 的 字符 串 由 传 入 的 列表 中 每 个 字符 串 连接 而 成 。 例 如 ， 在 交互 式 环境 
中 输入 以 下 代码 ; 
























































>>> '，'.join(['cats', 'rats', 'bats']) 
‘cats, rats, bats' 

>>> ' '.join(['My', 'name', 'is', 'Simon']) 
'My name is Simon’ 

>>> 'ABC'.join(['My', 'name', 'is', 'Simon']) 


“MyYABCnameABCiSsABCSimon 


























请 注意 , 调用 join(0) 方 法 的 字符 串 ， 被 插入 到 列表 参数 中 每 个 字符 串 的 中 间 。 例 如 ， 
如 果 在 ', 字符 串 上 调用 join(['cats', rats, bats])， 返 回 的 字符 串 就 是 'cats, rats, bats'。 

要 记 住 ,join0 方 法 是 针对 一 个 字符 串 而 调用 的 ， 并 且 传 入 一 个 列表 值 ( 很 容易 
不 小 心 用 其 他 的 方式 调用 它 )。split0 方 法 做 的 事情 正好 相反 : 它 针 对 一 个 字符 串 调 
] ， 返 回 一 个 字符 串 列表 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'My name is Simon' .split() 
['My', 'name', 'is', 'Simon'] 


























































































































默认 情况 下 ， 字 符 串 "My name is Simon' 按 照 各 种 空白 字符 分 制 ， 诸 如 空格 、 制 表 
符 或 换行 符 。 这 些 空白 字符 不 包含 在 返回 列表 的 字符 串 中 。 也 可 以 同 split0 方 法 传 入 一 
个 分 割 字 符 串 ， 指 定 它 按照 不 同 的 字符 串 分 割 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 






































102 ” Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 


>>> 'MyABCnameABCisABCSimon' .split(' ABC ') 

















['My', 'name', 'is', 'Simon'] 
>>> 'My name is Simon'.split('m') 
['My na', 'e is Si', 'on'] 
一 个 常见 的 split0 用 法 ， 是 按照 换行 符 分 割 多 行 字 符 串 。 在 交互 式 环境 中 输入 
以 下 代码 : 
>>> spam = '''Dear Alice, 


How have you been? I am fine. 
There is a container in the fridge 
that is labeled "Milk Experiment". 


Please do not drink it. 


Sincerely, 

Bob''’' 

>>> spam.split('\n') 

['Dear Alice,', 'How have you been? I am fine.', 'There is a container in the 
fridge', 'that is labeled "Milk Experiment".', '', 'Please do not drink it.', 
'Sincerely,', 'Bob'] 








向 split0 方 法 传 入 参数 \m， 我 们 按照 换行 符 分 割 变量 中 存储 的 多 行 字符 串 ， 返 
回 列表 中 的 每 个 表 项 ， 对 应 于 字符 串 中 的 一 行 


























6.2.5 ”用 rjust()、ljust() 和 center() 方 法 对 齐 文本 

riust0 和 ljustO 字 符 串 方法 返回 调用 它们 的 字符 串 的 填充 版 本 , 通过 插入 空格 来 
对 齐 文本 。 这 两 个 方法 的 第 一 个 参数 是 一 个 整数 长 度 ， 用 于 对 齐 字符 串 。 在 交互 式 
环境 中 输入 以 下 代码 : 
>>> 'Hello' .rjust(10) 

Hello' 
>>> 'Hello' .rjust(20) 
Hello' 
>>> 'Hello World' .rjust(20) 
" Hello World' 
>>> 'Hello' .ljust(10) 

'Hello'.rjust(10) 是 说 我 们 希望 右 对 齐 ， 将 'Hello' 放 在 一 个 长 度 为 10 的 字符 串 中 。 
Hello 有 5 个 字符 ， 所 以 左边 会 加 上 5 个 空格 ， 得 到 一 个 10 个 字符 的 字符 串 ， 实 现 
Hello' 右 对 齐 。 

riust0 和 ljjust(0 方 法 的 第 二 个 可 选 参数 将 指定 一 个 填充 字符 ， 取 代 空 格 字符 。 在 
交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello' .rjust(20, '*') 


1 炎炎 火炎 火炎 火炎 火炎 火炎 类 六 大 HeE1T 1O ! 


>>> 'Hello' .ljust(20, '-') 






















































































centerO 字 符 串 方法 与 ljust0 与 fjust0 类 似 ， 但 它 让 文本 居中 ， 而 不 是 左 对 齐 或 
右 对 齐 。 在 交互 式 环境 中 输入 以 下 代码 : 
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>>> 'Hello' .center(20) 
上 Hello ' 
>>> 'Hello' .center(20, '=') 














如 果 需 要 打印 表格 式 数 据 ， 留 出 正确 的 空格 ， 这 些 方法 就 特别 有 用 。 打 开 一 个 
新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 picnicTable.py: 


def printPicnic(itemsDict, leftWidth, rightWidth): 



































print('PICNIC ITEMS'.center(leftWidth + rightWidth, '-')) 
for k, v in itemsDict.items(): 
print(k.ljust(leftWidth, '.') + str(v).rjust(rightwWidth)) 


picnicItems = {'sandwiches': 4, 'apples': 12, 'cups': 4, 'cookies': 8000} 
printPicnic(picnicItems, 12, 5) 
printPicnic(picnicItems，20，6) 


在 这 个 程序 中 ,我 们 定义 了 printPicnic0 方 法 ， 它 接受 一 个 信息 的 字典 ,并 利用 
center0、ljustO0 和 rustD， 以 一 种 干净 对 齐 的 表格 形式 显示 这 些 信息 。 

我 们 传递 给 printPicnicO 的 字典 是 picnicItems。 在 picnicItems 中 , 我 们 有 4 个 三 
明治 、12 个 苹果 、4 个 杯子 和 8000 块 饼干 。 我 们 希望 将 这 些 信息 组 织 成 两 行 ， 表 
项 的 名 字 在 左边 ， 数 量 在 右边 。 

要 做 到 这 一 点 ， 就 需要 决定 左 列 和 右 列 的 宽度 。 与 字典 一 起 ， 我 们 将 这 些 值 传 
递 给 printPicnic0O)。 

printPicnic() 接 受 一 个 字典 ， 一 个 leftWidth 表示 表 的 左 列 宽度 ， 一 个 rightWidth 
表示 表 的 右 列 宽度 。 它 打印 出 标题 PICNIC ITEMS， 在 表 上 方 居 中 。 然 后 它 遍 历 字 
典 ， 每 行 打印 一 个 键 - 值 对 。 键 左 对 齐 ， 填 充 句 号 。 值 右 对齐 ， 填 充 空 格 。 

在 定义 printPicnicO 后 ， 我 们 定义 了 字典 picnicItems， 并 调用 printPicnicO 两 次 ， 
传 入 不 同 的 表 左 右 列 宽度 。 

运行 该 程序 ， 野 餐 用 品 就 会 显示 两 次 。 第 一 次 左 列 宽度 是 12 个 字符 ， 右 列 宽 
度 是 5 个 字符 。 第 二 次 它们 分 别 是 20 个 和 6 个 字符 。 


---PICNIC ITEMS-- 
sandwiches.. 4 







































































































































































































































































apples...... 12 
CUPS. Baas 4 
cookies..... 8000 
------- PICNIC ITEMS------- 
sandwiches.......... 4 
appleSsn ee die 12 
CUDSh ne hd 4 
COOKIie@Sy iii i 8000 
利用 rust0、ljust0 和 centerO 让 你 确保 字符 串 整 齐 对 齐 ， 即 使 你 不 清楚 字符 串 
有 多 少 字符 。 





6.2.6 用 strip()、rstrip() 和 Istrip() 删 除 空白 字符 
有 时 候 你 希望 删除 字符 串 左边 、 右 边 或 两 边 的 空白 字符 (空格 、 制 表 符 和 换行 
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A 器 


符 )。strip0 字 符 串 方法 将 返回 一 个 新 的 字符 串 ， 它 的 开头 或 未 尾 都 没有 空白 字符 。 
lstripO 和 rstrip0 方 法 将 相应 删除 左边 或 右边 的 空白 字符 。 
在 交互 式 环 境 中 输入 以 下 代码 : 


>>> Spam = ' Hello World ' 
>>> spam.strip() 
‘Hello Wor1d 
>>> Spam.lstrip() 
'Hello World ' 
>>> spam.rstrip() 
Hello World' 


有 一 个 可 选 的 字符 串 参 数 ， 指 定 两 边 的 哪些 字符 应 该 删除 。 在 交互 式 环境 中 输 
入 以 下 代码 : 
>>> spam = 'SpamSpamBaconSpamEggsSpamSpam' 


>>> spam.strip('ampS') 
"BaconSpamEggs 


向 strip0 方 法 传 入 参数 ampS'， 告诉 它 在 变量 中 存储 的 字符 串 两 端 , 删除 出 现 的 
a、m、p 和 大 写 的 $。 传 入 strip0 方 法 的 字符 串 中 , 字符 的 顺序 并 不 重要 : strip(ampS') 
做 的 事情 和 strip(CmapS) 或 strip(Spam) 一 样 。 
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6.2.7 用 pyperclip 模块 拷贝 粘贴 字符 串 
pyperclip 模块 有 copy0 和 paste0 函 数 ， 可 以 向 计算 机 的 剪贴 板 发 送 文本 ， 或 从 
已 接收 文本 。 将 程序 的 输出 发 送 到 剪贴 板 ， 使 它 很 容易 粘贴 到 邮件 、 文 字 处 理 程 请 
或 其 他 软件 中 。pyperclip 模块 不 是 Python 自 带 的 。 要 安装 它 ， 请 遵从 附录 A 中 安 
装 第 三 方 模块 的 指南 。 安 装 pyperclip 模块 后 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import pyperclip 

>>> pyperclip.copy('Hello world!') 
>>> pyperclip.paste() 

'Hello world!' 


当然 ， 如 果 你 的 程序 之 外 的 某 个 程序 改变 了 剪贴 板 的 内 容 ，paste0 函 数 就 会 返 
它 。 例 如 ， 如 果 我 将 这 句 话 复制 到 剪贴 板 ， 然 后 调用 paste0)， 看 起 来 就 会 像 这 样 : 


>>> pyperclip.paste() 
"For example, if I copied this sentence to the clipboard and then called 
paste(), it would look like this:' 














































































































右 | 

















在 IDLE 之 外 运行 Python 脚本 
到 目前 为 止 ， 你 一 直 在 使 用 IDLE 中 的 交互 式 环境 和 文件 编辑 器 来 运行 
Python 脚本 。 但 是 ， 你 不 想 每 次 运行 一 个 脚本 时 ， 都 打开 IDLE 和 Python 脚本 ， 
这 样 不 方便 。 好 在 ， 有 一 些 快捷 方式 ， 让 你 更 容易 地 建立 和 运行 Python 脚本 。 
这 些 步骤 在 Windows、OSX 和 Linux 上 稍 有 不 同 ， 但 每 一 种 都 在 附录 B 中 描述 。 
请 翻 到 附录 B, 学 习 如 何方 便 地 运行 Python 脚本 , 并 能 够 向 它们 传递 命令 行 参数 。 


第 6 章 字符 串 操 作 105 


(使 用 IDLE 时 ， 不 能 向 程序 传递 命令 行 参数 。) 


6.3 项 目 : 口令 保管 箱 


你 可 能 在 许多 不 同 网 站 上 拥有 账号 ， 每 个 账号 使 用 相同 的 口令 是 个 坏 习惯 。 如 
果 这 些 网 站 中 任何 一 个 有 安全 漏洞 ， 黑 客 就 会 知道 你 所 有 的 其 他 账号 的 口令 。 最 好 
是 在 你 的 计算 机 上 ， 使 用 口令 管理 器 软件 ， 利 用 一 个 主 控 口 令 ， 解 锁 口 令 管理 器 。 
然后 将 某 个 账户 口令 找 贝 到 剪贴 板 ， 再 将 它 粘 贴 到 网 站 的 口令 输入 框 。 

你 在 这 个 例子 中 创建 的 口令 管理 器 程序 并 不 安全 ， 但 它 基 本 展示 了 这 种 程序 的 
作 原 理 。 









































































































































































































































本 章 项 目 
这 是 本 书 的 第 一 个 章 内 项 目 。 以 后 ， 每 章 都 会 有 一 些 项 目 ， 展 示 该 章 介绍 的 
一 些 概念 。 这 些 项 目的 编写 方式 ， 让 你 从 一 个 空白 的 文件 编辑 器 窗口 开始 ， 得 到 
一 个 完整 的 、 能 工作 的 程序 。 就 像 交 互 式 环境 的 例子 一 样 , 不 要 只 看 项 目的 部 分 ， 
要 注意 计算 机 的 提示 ! 


第 1 步 : 程序 设计 和 数据 结构 
你 希望 用 一 个 命令 行 参数 来 运行 这 个 程序 ， 该 参数 是 账号 的 名 称 。 例 如 ， 账 号 
的 口令 将 找 贝 到 剪贴 板 ， 这 样 用 户 就 能 将 它 粘 贴 到 口令 输入 框 。 通 过 这 种 方式 ， 用 

户 可 以 有 很 长 而 复杂 的 口令 ， 又 不 需要 记 住 它们 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 该 程序 保存 为 pwpy。 程 序 开始 时 需要 有 一 
行 #!〔 参 见 附录 B)， 并 且 应 该 写 一 些 注释 ,简单 描述 该 程序 。 因 为 你 希望 关联 每 个 
账号 的 名 称 及 其 口令 ， 所 以 可 以 将 这 些 作为 字符 串 保 存在 字典 中 。 字 上 典 将 是 组 织 你 
的 账号 和 口令 数据 的 数据 结构 。 让 你 的 程序 看 起 来 像 下 面 这 样 : 


#! python3 
# pw.py - An insecure password locker program. 
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PASSWORDS = {'email': 'F7minlBDDuvMJuxESSKHFhTxFtjVB6', 
‘blog': 'VmALvQyKAxiVHSG8vO1if1MLZF3sdt',， 
'luggage': '12345'} 


第 2 步 : 处 理 命令 行 参数 
命令 行 参数 将 存储 在 变量 sys.argv 中 《关于 如 何在 程序 中 使 用 命令 行 参数 ， 更 多 


信息 请 参见 附录 B)。sys.argv 列表 中 的 第 一 项 总 是 一 个 字符 串 ， 它 包含 程序 的 文件 名 
Cpw.py')。 第 二 项 应 该 是 第 一 个 命令 行 参数 。 对 于 这 个 程序 ， 这 个 参数 就 是 账户 名 称 ， 
你 希望 获取 它 的 口令 。 因 为 命令 行 参数 是 必须 的 ， 所 以 如 果 用 户 息 记 添加 参数 也 就 
是 说 ， 如 果 列 表 中 少 于 两 个 值 )， 你 就 显示 用 法 信息 。 让 你 的 程序 看 起 来 像 下 面 这 样 : 
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#! python3 


# pw.py - An insecure password locker program. 


PASSWORDS = {'email': 'F7minlBDDuvMJuxESSKHFhTxFtjVB6', 
‘blog': 'VmALvQyKAxiVHSG8vO1if1MLZF3sdt',， 
'luggage': '12345'} 


import sys 

if len(sys.argv) < 2: 
print('Usage: python pw.py [account] - copy account password') 
sys.exit() 


account = sys.argv[1] # first command line arg is the account name 


第 3 步 : 复制 正确 的 口令 























既然 账户 名 称 已 经 作为 字符 串 保存 在 变量 account 中 ， 你 就 需要 看 看 它 是 不 是 












































PASSWORDS 字典 中 的 键 。 如 果 是 ， 你 希望 利用 pyperclip.copy0， 将 该 键 的 值 复制 























到 剪贴 板 (既然 用 到 了 pyperclip 模块 ,就 需要 导入 它 )。 请 注意 , 实际 上 不 需要 account 





























变量 , 你 可 以 在 程序 中 所 有 使 用 account 的 地 方 , 直 接 使 
的 变量 更 可 读 ， 不 像 是 神秘 的 sys.argv[1]。 





Na 









































j sys.argv[1]。 但 名 为 account 


让 你 的 程序 看 起 来 像 这 样 : 





#! python3 

# pw.py - An insecure password locker program. 

PASSWORDS = {'email': 'F7minlBDDuvMJuxESSKHFhTxFtjVB6', 
‘blog': 'VmALvQyKAxiVHSG8vO1if1MLZF3sdt',， 
'luggage': '12345'} 


import sys, pyperclip 

if len(sys.argv) < 2: 
print('Usage: py pw.py [account] - copy account password') 
sys.exit() 


account = sys.argv[1] # first command line arg is the account name 


if account in PASSWORDS: 

pyperclip.copy (PASSWORDS[account]) 

print('Password for ' + account + ' copied to clipboard.') 
else: 

print('There is no account named ' + account) 

















这 段 新 代 码 在 PASSWORDS 字典 中 查找 账户 名 称 。 如 果 该 账号 名 称 是 字 


























经 复制 了 该 值 。 否 则 ， 我 们 打印 一 条 消息 ， 说 没有 这 个 名 称 的 账号 。 


























中 的 


键 ， 我 们 就 取得 该 键 对 应 的 值 ， 将 它 复制 到 剪贴 板 ， 然 后 打印 一 条 消息 ， 说 我 们 已 


这 就 是 完整 的 脚本 。 利 用 附录 B 中 的 指导 ， 轻 松 地 启动 命令 行程 序 ， 现 在 你 就 























改 源 代 码 的 PASSWORDS 字典 中 的 值 。 














有 了 一 种 快速 的 方式 ， 将 账号 的 口令 复制 到 剪贴 板 。 如 果 需 要 更 新 口令 ， 就 必须 修 


当然 ， 你 可 能 不 希望 把 所 有 的 口令 都 放 在 一 个 地 方 ， 让 某 人 能 够 轻易 地 复制 。 























但 你 可 以 修改 这 个 程序 ， 利 用 它 快速 地 将 普通 文本 复制 到 剪贴 板 。 假 设 你 需要 
些 电子 邮件 ， 它 们 有 许多 同样 的 段落 。 你 可 以 将 每 个 段落 作为 一 个 值 ， 放 在 
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PASSWORDS 字典 中 (此 时 你 可 能 希望 对 这 个 字典 重 命 名 )， 然 后 你 就 有 了 一 种 方 
式 ， 快 速 地 选择 一 些 标准 的 文本 ， 并 复制 到 剪贴 板 。 

在 Windows 上 ， 你 可 以 创建 一 个 批 处 理 文件 ， 利 用 Win-R 运行 窗口 ， 来 运行 
这 个 程序 〈 关 于 批 处 理 文件 的 更 多 信息 ， 参 见 附录 B )。 在 文件 编辑 器 中 输入 以 下 
代码 ， 保 存 为 pw.bat， 放 在 C:\Windows 目录 下 : 


@py.exe C:\Python34\pw.py %* 
Qpause 


有 了 这 个 批 处 理 文件 ， 在 Windows 上 运行 口令 保存 程序 ， 就 只 要 按 下 Win-R， 


了 输入 pw <account name>。 
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6.4 项 目 : 在 Wiki 标记 中 添加 无 序列 表 


在 编辑 一 篇 维基 百科 的 文章 时 ， 你 可 以 创建 一 个 无 序列 表 ， 即 让 每 个 列表 项 占 
据 一 行 ， 并 在 前 面 放 置 一 个 星 号 。 但 是 假设 你 有 一 个 非常 大 的 列表 ， 和 希望 添加 前 面 
的 星 号 。 你 可 以 在 每 一 行 开 始 处 输入 这 些 星 号 ， 一 行 接 一 行 。 或 者 也 可 以 用 一 小 段 
Python 脚本 ， 将 这 个 任务 自动 化 。 

bulletPointAdderpy 脚本 将 从 剪贴 板 中 取得 文本 , 在 每 一 行 开始 处 加 上 星 号 和 空 
格 ， 然 后 将 这 段 新 的 文本 贴 回 到 剪贴 板 。 例 如 ， 如 果 我 将 下 面 的 文本 复制 到 剪贴 板 
( 取 自 于 维基 百科 的 文章 “List of Lists of Lists ”): 


Lists of animals 

Lists of aquarium life 

Lists of biologists by author abbreviation 
Lists of cultivars 


然后 运行 bulletPointAdderpy 程序 ， 剪 贴 板 中 就 会 包含 下 面 的 内 容 : 












































































































































* Lists of animals 

* Lists of aquarium life 

* Lists of biologists by author abbreviation 
* Lists of cultivars 


这 段 前 面 如 了 星 号 的 文本 ， 就 可 以 粘 









































2 








占 回 维基 百科 的 文章 中 ,成 为 一 个 无 序列 表 。 














第 1 步 : 从 剪贴 板 中 复制 和 粘贴 
你 希望 bulletPointAdderpy 程序 完成 下 列 事情 : 
1. 从 剪贴 板 粘贴 文本 ; 
2. 对 它 做 一 些 处 理 ; 
3. 将 新 的 文本 复制 到 剪贴 板 。 
第 2 步 有 一 点 技巧 , 但 第 1 步 和 第 3 步 相 当 简 单 , 它们 上 了 pyperclip.copyO 
和 pyperclip.pasteO0 函 数 。 现 在 ， 我 们 先 写 出 程序 中 第 1 步 和 第 3 步 的 部 分 。 输 入 以 
下 代码 ， 将 程序 保存 为 bulletPointAdder.py: 
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#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste() 
# TODO: Separate lines and add stars . 
pyperclip.copy (text) 
TODO 注释 是 提醒 ， 你 最 后 应 该 完成 这 部 分 程序 。 下 一 步 实 际 上 就 是 实现 程序 
的 这 个 部 分 。 
































第 2 步 : 分 离 文 本 中 的 行 ， 并 添加 星 号 
调用 pyperclip.paste0 将 返回 剪贴 板 上 的 所 有 文本 ， 结 果 是 一 个 大 字符 串 。 如 果 
我 们 使 用 “List of Lists of Lists ”的 例子 ， 保 存在 text 中 的 字符 串 就 像 这 样 : 


'Lists of animals\nLists of aquarium life\nLists of biologists by author 
abbreviation\nLists of cultivars' 


在 打印 到 剪贴 板 ， 或 从 剪贴 板 粘贴 时 ， 该 字符 串 中 的 m 换行 字符 ， 让 它 能 显示 为 
多 行 。 在 这 一 个 字符 串 中 有 许多 “ 行 ”% 你 想 要 在 每 一 行 开 始 处 添加 一 个 星 号 。 

你 可 以 编写 代码 , 查找 字符 串 中 每 个 \n 换行 字符 , 然后 在 它 后 面 添加 一 个 星 号 。 
但 更 容易 的 做 法 是 ， 使 用 split0 方 法 得 到 一 个 字符 串 的 列表 ， 其 中 每 个 表 项 就 是 原 
来 字符 串 中 的 一 行 ， 然 后 在 列表 中 每 个 字符 串 前 面 添加 星 号 。 

让 程序 看 起 来 像 这 样 : 


#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 
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import pyperclip 
text = pyperclip.paste() 


# Separate lines and add stars . 

lines = text.split('\n') 

for i in range(len(lines)): # loop through all indexes in the "lines" list 
lines[i] = '* ' + lines[i] # add star to each string in "lines" list 


pyperclip.copy (text) 

我 们 按 换行 符 分 割 文本 ， 得 到 一 个 列表 ， 其 中 每 个 表 项 是 文本 中 的 一 行 。 我 们 
将 列表 保存 在 lines 中 ， 然 后 遍历 lines 中 的 每 个 表 项 。 对 于 每 一 行 ， 我 们 在 开始 处 
添加 一 个 新 号 和 一 个 空格 。 现 在 lines 中 的 每 个 字符 串 都 以 星 号 开始 。 
























































第 3 步 : 连接 修改 过 的 行 
lines 列表 现在 包含 修改 过 的 行 ， 每 行 都 以 星 号 开始 。 但 pyperclip.copy0 需 要 一 
个 字符 串 ， 而 不 是 字符 串 的 列表 。 要 得 到 这 个 字符 串 ， 就 要 将 lines 传递 给 join 方 
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#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste() 


# Separate lines and add stars. 

lines = text.split('\n') 

for i in range(len(lines)): # loop through all indexe 
lines[i] = '* ' + lines[i] # add star to each str 

text = '\n'.join(lines) 

pyperclip.copy (text) 


法 ， 连 接 列 表 中 字符 串 。 让 你 的 程序 看 起 来 像 这 样 : 


to the start 


s for "lines" list 
ing in "lines" list 





运行 这 个 程序 ， 它 将 取代 剪贴 板 上 的 文本 ， 新 的 文本 每 一 行 都 以 星 号 开始 。 现 






































在 程序 完成 了 ， 可 以 在 剪贴 板 中 复制 一 些 文本 ， 试 着 运行 它 。 








即使 不 需要 自动 化 这 样 一 个 专门 的 任务 ， 也 可 能 想 要 自动 化 某 些 其 他 类 型 的 文 




















本 操作 ， 诸 如 删除 每 行 末尾 的 空格 ， 或 将 文本 转换 成 大 写 或 小 号。 不论 你 的 需求 是 











什么 ， 都 可 以 使 用 剪贴 板 作 为 输入 和 输出 。 


6.5 ”小结 























文本 是 常见 的 数据 形式 ，Python 自 带 了 许多 有 月 

















串 中 的 文本 。 在 你 写 的 几乎 每 个 Python 程序 中 ， 都 会 用 到 取 下 标 、 切 片 和 字符 串 方法 。 
现在 你 写 的 程序 似乎 不 太 复 杂 ， 因 为 它们 没有 图 形 用 户 界面 ， 没 有 图 像 和 彩色 














上 的 字符 串 方 法 ， 来 处 理 保存 在 字符 





















































的 文本 。 到 目前 为 止 ， 你 在 利用 printO 显 示 文 本 ， 
是 ， 用 户 可 以 通过 剪贴 板 ， 快 速 输入 大 量 的 文本 。 























方式 ， 可 以 操作 大 量 的 文本 。 这 些 基 于 文本 的 程序 可 能 没有 内 亮 的 窗口 或 图 形 ， 但 


























它们 能 很 快 完成 大 量 有 用 的 工作 。 























利用 input0 让 用 户 输入 文本 。 但 
这 种 能 力 提供 了 一 种 有 用 的 编程 





















































操作 大 量 文本 的 另 一 种 方式 ， 是 直接 从 硬盘 读 写 文件 。 在 下 一 章 中 ， 你 将 学 己 








如 何 用 Python 来 做 到 这 一 点 。 
6.6 ”习题 


1 什么 是 转 义 字符 ? 
2， 转 义 字符 \n 和 Nt 代表 什么 ? 
3， 如 何在 字符 串 中 放 入 一 个 倒 斜 杠 字符 \? 


A 








4. 字符 串 "Howl's Moving Castle" 是 有 效 字 符 吓 














义 ， 却 没有 问题 ? 





。 为 什么 单词 中 的 单 引 号 没有 转 


Ud 























5. 如 果 你 不 希望 在 字符 串 中 加 入 nn， 怎 样 写 
6. 下 面 的 表达 式 求 值 为 什么 ? 
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个 带 有 换行 的 字符 串 ? 





表格 打印 


。 Hello world!'[1] 

。 Hello world!'[0:5] 

。 Hello world!'[:5] 

。 Hello world!'[3:] 

7. 下 面 的 表达 式 求 值 为 什么 ? 
。 Hello.upperO 





。 Hello.upper(O.isupper(O) 
。 Hello.upperO.lowerO 
8. 下 面 的 表达 式 求 值 为 什么 ? 


° Remember, remember the fifth of November.'.split() 





* -'.join(There can be only one..SPlitO) 
9. 什么 字符 串 方 法 能 用 于 字符 串 右 对 齐 、 左 对 齐 和 居中 ? 
10. 如 何 去 掉 字符 串 开 始 或 末尾 的 空白 字符 ? 
































作为 实践 ， 编 程 完成 下 列 任务 。 




















编写 一 个 名 为 printTableO 的 函数 ， 它 接受 字符 串 的 列表 的 列表 ， 将 它 显示 在 组 
织 恨 好 的 表格 中 , 每 列 右 对 齐 。 假 定 所 有 内 层 列表 都 包含 同样 数目 的 字符 串 。 例 如 ， 
该 值 可 能 看 起 来 像 这 样 : 













































































tableData = [['apples', 'oranges', 'cherries', 'banana'], 
['Alice', 'Bob', 'Carol', 'David'], 
['dogs', 'cats', 'moose', 'goose']] 


你 的 printTable0 函 数 将 打印 出 : 


apples Alice dogs 

oranges Bob cats 
cherries Carol moose 

banana David goose 





你 的 代码 首先 必须 找到 每 个 内 层 列表 中 最 长 的 字符 串 ， 这 样 整 列 就 有 足够 的 宽度 以 
放下 所 有 字符 串 。 你 可 以 将 每 一 列 的 最 大 宽度 ， 保 存 为 一 个 整数 的 列表 。PprintTable0 函 
数 的 开始 可 以 是 colWidths = [0] * len(tableData)， 这 创建 了 一 个 列表 ， 它 包含 了 一 些 0， 
数目 与 tableData 中 内 层 列表 的 数目 相同 。 这 样 ，colWidths[0] 就 可 以 保存 tableData[0] 中 
最 长 字符 串 的 宽度 , colWidths[1] 就 可 以 保存 tableData[1] 中 最 长 字符 串 的 宽度 , 以 此 类 推 。 
然后 可 以 找到 colWidths 列表 中 最 大 的 值 ,决定 将 什么 整数 宽度 传递 给 tjust0) 字 符 囊 方法 。 
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第 二 部 分 


自动 化 任务 





第 


模式 匹配 与 正则 表达 式 





你 可 能 熟悉 文本 查找 , 即 按 下 Ctrl-F, 输入 你 要 查找 的 词 。“ 正 
则 表达 式 ” 更 进一步 ， 它 们 让 你 指定 要 查找 的 “模式 ” 你 也 许 不 
知道 一 家 公司 的 准确 电话 号 码 , 但 如 果 你 住 在 美国 或 加 拿 大 , 你 就 
知道 它 有 3 位 数字 ,然后 是 一 个 短 横 线 ,然后 是 4 位 数字 (有 时 候 
以 3 位 区 号 开始 )。 因 此 作为 一 个 人 , 你 看 到 一 个 电话 号 码 就 知道 : 
415-555-1234 是 电话 号 码 ， 但 4,155,551,234 不 是 。 
正则 表达 式 很 有 用 ， 但 如 果 不 是 程序 员 ， 很 少 会 有 人 了 解 
它 ， 尽 管 大 多 数 现代 文本 编辑 器 和 文字 处 理 器 《〈 诸 如 微软 的 Word 或 OpenOffice)， 
都 有 查找 和 查找 替换 功能 ， 可 以 根据 正则 表达 式 查找 。 正 则 表达 式 可 以 节约 大 量 时 
间 ， 不 仅 适 用 于 软件 用 户 ， 也 适用 于 程序 员 。 实 际 上 ， 技 术 作 家 Cory Doctorow 声 
称 ， 甚 至 应 该 在 教授 编程 之 前 ， 先 教授 正则 表达 式 : 

“知道 [正则 表达 式 ] 可 能 意味 着 用 3 步 解决 一 个 问题 ， 而 不 是 用 3000 步 。 如 果 
你 是 一 个 技术 怪 侠 ， 别 忘 了 你 用 几 次 击 键 就 能 解决 的 问题 ， 其 他 人 需要 数 天 的 烦琐 
工作 才能 解决 ， 而 且 他 们 容易 犯错 。”' 
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. Cory Doctorow, “Here’s what ICT should really teach kids: how to do regular expressions,”Guardian, December 4, 2012, 


htip:/Wwww.theguardian.com/technology/2012/dec/0ict-teach-kids-regular-expressions/. 
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， 你 将 从 编写 











在 本 章 ， 
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看 看 ,使 


正则 表达 式 让 代码 变 得 多 么 














然后 转向 
在 本 章 末 尾 ， 你 将 编写 

















7.1 不 用 正则 表达 式 来 查找 文本 模式 


个 数字 ， 一 个 短 横 线 ， 再 





Ar 中 

















查找 


个 程序 开始 


些 更 强大 的 功能 ， 诸 如 字符 串 蔡 
个 程序 ， 从 一 段 文本 中 自动 提取 电话 号 码 和 E-mail 地 址 。 











， 先 不 | 











j 正 则 表达 式 来 寻找 文本 模式 。 然 后 





























简洁 。 我 











假设 你 希望 在 子 付 中 


























































































































号 (就 是 text 中 的 前 3 个 字 





等 展示 用 正中 
换 ， 以 及 创建 你 自 


I 表达 式 进行 基本 匹配 ， 
己 的 字符 类 型 。 最 后 ， 




















电话 号 码 。 你 知道 模式 : 3 个 数字 ， 一 个 短 横 线 ，3 
是 4 个 数字 。 例 如 : 415-555-4242。 











是 否 匹 配 模式 ， 它 





























ya = = 


对 串 是 不 是 有 效 的 
False。 代 码 首 先 检查 该 字符 串 


符 ) 是 否 只 包含 






































假定 我 们 用 一 个 名 为 isPhoneNumber0 的 函数 , 来 检查 字符 串 
返回 True 或 False。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 然 后 保存 为 
isPhoneNumber.py: 
def isPhoneNumber (text): 

0 if len(text) != 12: 
return False 
for i in range(0, 3): 
@ if not text[i].isdecimal(): 
return False 
© if text[3] != '-' 
return False 
for i in range(4, 7): 
0 if not text[i].isdecimal(): 
return False 
© if text[7] != '-' 
return False 

for i in range(8, 12): 

© if not text[i].isdecimal(): 
return False 
@ return True 
print('415-555-4242 is a phone number:') 
print(isPhoneNumber('415-555-4242')) 
print('Moshi moshi is a phone number:') 
print(isPhoneNumber('Moshi moshi')) 

运行 该 程序 ， 输 出 看 起 来 像 这 样 : 

415-555-4242 is a phone number: 
True 

Moshi moshi is a phone number: 
False 

isPhoneNumberO 函 数 的 代码 进行 几 项 检查 ,看 看 text 中 的 字 
电话 号 码 。 如 果 其 中 任意 一 项 检查 失败 ， 函 数 就 返回 
是 否 刚好 有 12 个 字符 @。 然后 它 检 查 区 
数字 @。 函 数 剩 下 的 部 分 检查 该 字符 串 是 否 符合 电 访 


后 














H 现 入 














如 果 程序 执行 通过 了 所 有 的 检查 ， 它 就 
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一 个 短 横 线 @，3 个 数字 @， 然 后 是 另 一 个 短 横 线 @， 
返回 





True@ 。 


活 号 码 的 模式 ， 号 码 必须 在 区 号 








最 后 是 4 个 数字 @ 。 















































用 参数 415-555-4242' 调 isPhoneNumber0 将 返 回 真 。 用 参数 Moshi moshi' 调 用 

isPhoneNumber0O 将 返回 假 ， 第 一 项 测试 失败 了 ， 因 为 不 是 12 个 字符 。 
必须 添加 更 多 代码 , 才能 在 更 长 的 字符 串 中 寻找 这 种 文本 模式 。 用 下 面 的 代码 ， 

蔡 代 isPhoneNumber.py 中 最 后 4 个 printO 函 数 调用 : 


message = 'Call me at 415-555-1011 tomorrow. 415-555-9999 is my office.' 
for i in range(len(message)): 
chunk = message[i:i+12] 
if isPphoneNumber (chunk): 
print('Phone number found: ' + chunk) 
print('Done') 


该 程序 运行 时 ， 输 出 看 起 来 像 这 村 


Phone number found: 415-555-1011 
Phone number found: 415-555-9999 
Done 


在 for 循环 的 每 一 次 迭代 中 ， 取 自 message 的 一 段 新 的 12 个 字符 被 赋 给 变量 
chunk@, 例如 , 在 第 一 次 迭代 , i 是 0, chunk 被 赋值 为 message[0:12] ( 即 字符 串 'Call 
me at 4 )。 在 下 一 次 迭代 ，i 是 1，chunk 被 赋值 为 message[1:13] 《字符 串 'all me at 41')。 

将 chunk 传递 给 isPhoneNumberO)， 看 看 它 是 否 符 合 电话 号 人 码 的 模式 @。 如 果 符 
合 ， 就 打印 出 这 段 文本 。 

继续 遍历 message， 最 终 chunk 中 的 12 个 字符 会 是 一 个 电话 号 码 。 该 循环 遍历 
了 整个 字符 串 ,测试 了 每 一 段 12 个 字符 ,打印 出 所 有 满足 iPhoneNumberO 的 chunk。 
当 我 们 遍历 完 message， 就 打印 出 Done。 

在 这 个 例子 中 , 虽然 message 中 的 字符 串 很 短 , 但 它 也 可 能 包含 上 百 万 个 字符 ， 
程序 运行 仍然 不 需要 一 秒 钟 。 使 用 正则 表达 式 查 找 电话 号 码 的 类 似 程序 ， 运 行 也 不 
会 超过 一 秒 钟 ， 但 用 正则 表达 式 编写 这 类 程序 会 快 得 多 。 
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7.2 ”用 正则 表达 式 查 找 文 本 模式 


前 面 的 电话 号 码 查找 程序 能 工作 ,但 它 使 用 了 很 多 代码 ， 做 的 事 却 有 限 : 
isPhoneNumber0 函 数 有 17 行 ， 但 只 能 查找 一 种 电话 号 码 模式 。 像 415.555.4242 或 
(415) 555-4242 这 样 的 电话 号 码 格式 ， 该 怎么 办 呢 ? 如 果 电 话 号 码 有 分 机 ， 例 如 
415-555-4242 x99， 该 怎么 办 呢 ? ispPhoneNumberO 函 数 在 验证 它们 时 会 失败 ， 你 可 
以 添加 更 多 的 代码 来 处 理 额 外 的 模式 ， 但 还 有 更 简单 的 方法 。 

正则 表达 式 ， 简 称 为 regex， 是 文本 模式 的 描述 方法 。 例 如 ，\d 是 一 个 正则 表 
达 式 ， 表 示 一 位 数字 字符 ， 即 任何 一 位 0 到 9 的 数字 。Python 使 用 正则 表达 式 
\d\d\d-\d\d\d-\d\d\d\d， 来 匹配 前 面 isPhoneNumber0) 函 数 匹 配 的 同样 文本 : 3 个 数字 、 
一 个 短 横 线 、3 个 数字 、 一 个 短 横 线 、4 个 数字 。 所 有 其 他 字符 串 都 不 能 匹配 
\d\d\d-\d\d\d-\d\d\d\d 正则 表达 式 。 
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但 正则 表达 式 可 以 复 
































确 的 











7.2.1 创建 正则 表达 式 对 象 
Python 中 所 有 正则 表达 式 的 函数 都 在 re 模块 中 。 在 交互 式 环境 中 输入 以 下 代 
码 ， 导 入 该 模块 : 


>>> impo 








rt re 


pA 








多 。 例如 ,在 一 个 模式 后 加 




















上 花 括号 包围 的 3 ({3})， 
就 是 说 ,“[ 匹 配 这 个 模式 3 次 ” 所 以 较 短 的 正则 表达 式 d{3}-\df{3}-df4}， 也 匹配 正 
电话 号 码 格式 。 





本 章 后 面 的 大 多 数 例子 都 需要 re 模块 ， 所 以 要 记得 在 你 写 的 每 个 脚本 开始 处 导入 


它 , 或 重新 启动 IDLE 时 。 否则 ， 就 会 遇 到 错误 消息 NameError: name 're' is not defined。 








向 re.compile0 传 入 一 
对 象 〈 或 者 就 简称 为 Regex 对 象 )。 
要 创建 一 个 Regex 对 象 来 


( 回 














忆 一 下 ，\d 表示 “一 个 数字 字符 ”，\d\d\d-\d\d\d-\d\d\d\d 是 正确 
正则 表达 式 )。 


人 宅 铸 中 








值 ， 表 示 正 则 表达 式 ， 它 将 返回 





人 字符 串 




















匹配 








一 个 Regex 模式 


外 话 号 码 模式 ， 就 在 交互 式 环境 中 输入 以 下 代码 























>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 


现在 phoneNumRegex 变量 包含 了 一 个 Regex 对 象 。 


7.2.2 ”匹配 Regex 对 象 


Regex 对 象 的 search() 方 法 查找 传 入 的 


日 心 > 人 


果 字 符 





码 夺 器 





符 串 中 实际 


串 中 没有 找到 该 正则 表达 式 模 式 ，search0 方 法 将 返回 
search() 方 法 将 返回 

































































>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 
>>> mo = phoneNumRegex.search('My number is 415-555-4242.') 


>>> print('Phone number found: ' 


+ mo.group()) 


Phone number found: 415-555-4242 


变量 名 mo 是 
































复杂 ， 但 它 比 前 面 的 isPhoneNumber.py 程序 要 短 很 多 ， 并 


























过 了 


phoneNumRegex 上 


有 ， 我 们 将 期 待 的 模式 传递 给 re. 
。 然 后 我 们 在 phoneNumRegex 上 调 
的 字符 串 。 查 找 的 结果 保存 在 变量 mo 中 。 在 这 个 例子 




















万 生 器 














子 付 钊 1 


找 至 





象 ， 而 不 





上 月 .分 x 


是 邹 











个 通用 的 名 称 ， 月 


1， 所 以 我 们 知道 会 返回 
值 None， 我 们 就 可 以 在 mo 变量 上 调用 


























做 的 事情 


电话 号 码 模式 的 








字符 串 ， 寻 找 该 正则 表达 式 的 所 有 匹配 。 如 
None。 如 果 找 到 了 该 模式 ， 
一 个 Match 对 象 。Match 对 象 有 一 个 group0 方 法 ， 它 返 
匹配 的 文本 《〈 稍 








回 被 查找 字 





后 我 会 解释 分 组 )。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 ; 


于 Match 对 象 。 这 个 例子 可 能 初 看 起 来 有 点 








样 。 








BA 


compile0， 并 将 
用 

























































































group0， 返 





得到 的 Regex 对 象 保存 在 
search()， 问 它 传 入 想 查 找 
EE， 我 们 知道 模式 会 在 这 个 
一 个 Match 对 象 。 知 道 mo 包含 一 个 Match 对 














回 匹 配 的 结 





将 mo.group0 写 在 打印 语句 中 ， 显 示 出 完整 的 匹配 ， 即 415-555-4242。 
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向 re.compileO0 传 递 原始 字符 串 

回忆 一 下 , Python 中 转 义 字符 使 用 倒 斜 枉 (\)。 字 符 串 \m' 表 示 一 个 换行 字符 ， 
而 不 是 倒 儿 杠 加 上 一 个 小 写 的 ms 你 需要 输入 转 义 字符 \, 才能 打印 出 一 个 倒 斜 枉 。 
所 以 \Nn 表 示 一 个 倒 斜 枉 加 上 一 个 小 写 的 n。 但 是 , 通过 在 字符 串 的 第 一 个 引号 之 
前 加 上 T， 可 以 将 该 字符 串 标记 为 原始 字符 串 ， 它 不 包括 转 义 字符 。 

因为 正则 表达 式 常 常 使 用 倒 儿 杠 ， 向 Te.compile(O) 函 数 传 入 原始 字符 串 就 很 方 
便 ， 而 不 是 输入 额外 得 到 儿 杠 。 输 入 md\d\d-\d\d\d-\d\d\d\d'， 比 输入 
NdNdNd-NdNdNd-NdNdNdNd' 要 容易 得 多 。 


7.2.3 ”正则 表达 式 匹 配 复习 
虽然 在 Python 中 使 用 正则 表达 式 有 几 个 步 又， 但 每 一 步 都 相当 简单 。 
1. 用 import re 导入 正则 表达 式 模块 。 
2. 用 re.compileO) 函 数 创建 一 个 Regex 对 象 ( 记 得 使 用 原始 字符 串 )。 
3. 向 Regex 对 象 的 search() 方 法 传 入 想 查 找 的 字符 串 。 它 返回 一 个 Match 对 象 。 
4. 调用 Match 对 象 的 group0 方 法 ， 返 回 实际 匹配 文本 的 字符 串 。 
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注意 虽然 我 鼓励 你 在 交互 式 环境 中 输入 示例 代码 ,但 你 也 应 该 利用 基于 网 页 的 正 
则 表达 式 测 试 程序 。 它 可 以 向 你 清楚 地 展示 ， 一 个 正则 表达 式 如 何 匹 配 输 入 的 
一 段 文本 。 我 推荐 的 测试 程序 位 于 http://regexpal.com/。 





7.3 用 正则 表达 式 匹 配 更 多 模式 


既然 你 已 知道 用 Python 创建 和 查找 正则 表达 式 对 象 的 基本 步骤, 就 可 以 尝试 一 
些 更 强大 的 模式 匹配 功能 了 。 






























































7.3.1 利用 括号 分 组 
假定 想 要 将 区 号 从 电话 号 码 中 分 离 。 添 加 括号 将 在 正则 表达 式 中 创建 “分 组 ” 
Qd\d\d)-Qd\d\d-\d\d\d\d)。 然 后 可 以 使 用 group0 匹 配对 象 方法 ， 从 一 个 分 组 中 获取 匹 
配 的 文本 。 
正则 表达 式 字符 串 中 的 第 一 对 括号 是 第 1 组 。 第 二 对 括号 是 第 2 组 。 向 group() 
匹配 对 象 方法 传 入 整数 1 或 2， 就 可 以 取得 匹配 文本 的 不 同 部 分 。 向 group0 方 法 传 
入 0 或 不 传 入 参数 ， 将 返回 整个 匹配 的 文本 。 在 交互 式 环 境 中 输入 以 下 代码 : 
a a 
>>> mo = phoneNumRegex.search('My number is 415-555-4242.') 


>>> mo.group(1) 
“415 
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>>> mo.group(2) 
'555-4242" 

>>> mo .group(0) 
'415-555-4242" 
>>> mo.group() 
'415-555-4242" 


如 果 想 要 一 次 就 获取 所 有 的 分 组 ， 请 使 用 groups0 方 法 ， 注 意 函 数 名 的 复数 形式 。 


>>> mo.groups() 

('415', '555-4242') 

>>> areaCode, mainNumber = mo.groups() 
>>> print(areaCode) 

415 

>>> print(mainNumber) 

555-4242 


因为 mo.groupsO 返 回 多 个 值 的 元 组 ， 所 以 你 可 以 使 用 多 重复 制 的 技巧 ， 每 个 值 
赋 给 一 个 独立 的 变量 ， 就 像 前 面 的 代码 行 : areaCode, mainNumber = mo.groups()。 

括号 在 正则 表达 式 中 有 特殊 的 含义 ， 但 是 如 果 你 需要 在 文本 中 匹配 括号 ， 怎 么 
办 ? 例如 ， 你 要 匹配 的 电话 号 码 ， 可 能 将 区 号 放 在 一 对 括号 中 。 在 这 种 情况 下 ， 就 
需要 用 倒 斜 本 对 (和 ) 进 行 字符 转 义 。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> phoneNumRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)') 
>>> mo = phoneNumRegex.search('My phone number is (415) 555-4242.') 
>>> mo.group(1) 

(415) 

>>> mo.group(2) 

“555-4242 



















































































































































































下 











传递 给 re.compile0 的 原始 字符 串 








，\ 和 \) 转 义 字符 将 匹配 实际 的 括号 字符 。 


7.3.2 ”用 管道 匹配 多 个 分 组 
字符 | 称 为 “管道 ?>。 和 希望 匹配 许多 表达 式 中 的 一 个 时 ， 就 可 以 使 用 它 。 例 如 ， 
正则 表达 式 rBatman|Tina Fey' 将 匹配 Batman' 或 "Tina Fey'。 
如 果 Batman 和 Tina Fey 都 出 现在 被 查找 的 字符 串 中 , 第 一 次 出 现 的 匹配 文本 ， 
将 作为 Match 对 象 返 回 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> heroRegex = re.compile (r'Batman|Tina Fey ') 
>>> mol = heroRegex.search('Batman and Tina Fey.') 
>>> mo1.group() 

"Batman 







































































>>> mo2 = heroRegex.search('Tina Fey and Batman.') 
>>> mo2.group() 





“Tina Fey 
注意 利用 findall0 方 法 ， 可 以 找到 “所 有 ”匹配 的 地 方 。 这 在 7.5 节 “findall0 方 法 ” 
中 讨论 。 















































也 可 以 使 用 管道 来 匹配 多 个 模式 中 的 一 个 ， 作 为 正则 表达 式 的 一 部 分 。 例 如 ， 
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假设 你 希望 匹配 'Batman'、'Batmobile'"、'Batcopter' 和 'Batbat' 中 任意 一 个 。 因 为 所 有 这 
些 字符 串 都 以 Bat 开始 ， 所 以 如 果 能 够 只 指定 一 次 前 级 ， 就 很 方便 。 这 可 以 通过 括 
号 实现 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> batRegex = re.compile(r'Bat(man|mobile|copter|bat)') 
>>> mo = batRegex.search('Batmobile lost a wheel ') 

>>> mo.group() 

"Batmobile' 

>>> mo.group(1) 

mobile 















































方法 调用 mo.group0 返 回 了 完全 匹配 的 文本 'Batmobile'， 而 mo.group(1) 只 是 返 
回 第 一 个 括号 分 组 内 匹配 的 文本 mobile'。 通 过 使 用 管道 字符 和 分 组 括号 ， 可 以 指定 
几 种 可 选 的 模式 ， 让 正则 表达 式 去 匹配 。 

如 果 需 要 匹配 真正 的 管道 字符 ， 就 用 倒 斜 杠 转 义 ， 即 \|。 



















































































7.3.3 ”用 问号 实现 可 选 匹 配 














有 时 候 ， 想 匹配 的 模式 是 可 选 的 。 就 是 说 ， 不 论 这 段 文本 在 不 在 ， 正 则 表达 式 
都 会 认为 匹配 。 字 符 ? 表 明 它 前 面 的 分 组 在 这 个 模式 中 是 可 选 的 。 例 如 ， 在 交互 式 
环境 中 输入 以 下 代码 : 

>>> batRegex = re.compile(r'Bat(wo)?man’') 

>>> mol1 = batRegex.search('The Adventures of Batman ' ) 


>>> mo1.group() 
"Batman 











>>> mo2 = batRegex.search('The Adventures of Batwoman ' ) 
>>> mo2.group() 
“Batwoman 


正则 表达 式 中 的 (wo)? 部 分 表明 ， 模 式 wo 是 可 选 的 分 组 。 该 正则 表达 式 匹配 的 文本 
中 ，wo 将 出 现 零 次 或 一 次 。 这 就 是 为 什么 正则 表达 式 既 匹配 Batwoman'， 又 匹配 Batman'。 

利用 前 面 电 话 号 码 的 例子 ， 你 可 以 让 正则 表达 式 寻 找 包 含 区 号 或 不 包含 区 号 的 
电话 号 码 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d') 
>>> mol1 = phoneRegex.search('My number is 415-555-4242') 
>>> mo1.group() 

'415-555-4242" 

>>> mo2 = phoneRegex.search('My number is 555-4242') 

>>> mo2.group() 

"555-4242 































































































你 可 以 认为 ?是 在 说 ,“ 匹 配 这 个 问号 之 前 的 分 组 零 次 或 一 次 ”。 
如 果 需 要 匹配 真正 的 问号 字符 ， 就 使 用 转 义 字符 \?。 


















































7.3.4 用 星 号 匹配 零 次 或 多 次 
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* 《〈 称 为 星 号 ) 意味 着 “匹配 零 次 或 多 次 ”， 即 星 号 之 前 的 分 组 ， 可 以 在 文本 中 
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现任 意 次 。 它 可 以 完全 不 存在 , 或 一 次 义 一 次 地 重复 。 让 我 们 再 来 看 看 Batman 的 例子 。 


>>> batRegex = re.compile(r'Bat(wo)*man') 

>>> mo1 = batRegex.search('The Adventures of Batman ' ) 
>>> mo1.group() 

"Batman 


>>> mo2 = batRegex.search('The Adventures of Batwoman ' ) 
>>> mo2.group() 
"Batwoman 


>>> mo3 = batRegex.search('The Adventures of Batwowowowoman ' ) 
>>> mo3.group() 
"Batwowowowoman 


对 于 Batman'， 正 则 表达 式 的 (wo)* 部 分 匹配 wo 的 零 个 实例 。 对 于 'Batwoman'， 
(wo 六 匹配 wo 的 一 个 实例 。 对 于 Batwowowowoman'，(wo)* 匹 配 wo 的 4 个 实例 。 
如 果 需 要 匹配 真正 的 星 号 字符 ， 就 在 正则 表达 式 的 星 号 字符 前 加 上 倒 斜 枉 ， 即 \*。 


























7.3.5 ”用 加 号 匹配 一 次 或 多 次 
* 意 味 着 “匹配 零 次 或 多 次 ”+〔 加 号 ) 则 意味 着 “匹配 一 次 或 多 次 ”。 星 号 不 要 求 
分 组 出 现在 匹配 的 字符 串 中 ， 但 加 号 不 同 ， 加 号 前 面 的 分 组 必须 “至 少 出 现 一 次 ” 这 不 
是 可 选 的 。 在 交互 式 环境 中 输入 以 下 代码 ， 把 它 和 前 一 节 的 星 号 正则 表达 式 进 行 比 较 : 
>>> mol1 = batRegex.search('The Adventures of Batwoman ' ) 


>>> mo1.group() 
“Batwoman 






















































































>>> mo2 = batRegex.search('The Adventures of Batwowowowoman ' ) 
>>> mo2.group() 
“Batwowowowoman 


>>> mo3 = batRegex.search('The Adventures of Batman ' ) 
>>> mo3 == None 
True 





正则 表达 式 Bat(wo)+man 不 会 匹配 字符 串 'The Adventures of Batman', 因为 加 号 
要 求 wo 至 少 出 现 一 次 。 


如 果 需 要 匹配 真正 的 加 号 字符 ， 在 加 号 前 面 加 上 倒 斜 杠 实现 转 义 : \+。 
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7.3.6 ”用 花 括号 匹配 特定 次 数 
如 果 想 要 一 个 分 组 重复 特定 次 数 ， 就 在 正则 表达 式 中 该 分 组 的 后 面 ， 跟 上 花 括 
号 包围 的 数字 。 例如 , 正则 表达 式 (Ha){3} 将 匹配 字符 串 'HaHaHa', 但 不 会 匹配 HaHa'， 
因为 后 者 只 重复 了 (Ha) 分 组 两 次 。 
除了 一 个 数字 ， 还 可 以 指定 一 个 范围 ， 即 在 花 括号 中 写 下 一 个 最 小 值 、 一 个 逗号 和 
一 个 最 大 值 。 例 如， 正则 表达 式 (Ha){3,5} 将 匹配 HaHaHa'、'HaHaHaHa' 和 'HaHaHaHaHa'。 
也 可 以 不 写 花 括号 中 的 第 一 个 或 第 二 个 数字 ， 不 限定 最 小 值 或 最 大 值 。 例 如 ， 
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(Ha){3,} 将 匹配 3 次 或 更 多 次 实例 ，(Ha){,5} 将 匹配 0 到 5 次 实例 。 花 括号 让 正则 表 
达 式 更 简短 。 这 两 个 正则 表达 式 匹 配 同 样 的 模式 : 






































(Ha) {3} 
(Ha) (Ha) (Ha) 
这 两 个 正则 表达 式 也 匹配 同样 的 模式 ; 
(Ha) {3,5} 
((Ha) (Ha) (Ha))|((Ha) (Ha) (Ha) (Ha))|((Ha) (Ha) (Ha) (Ha) (Ha)) 














在 交互 式 环境 中 输入 以 下 代码 ; 


>>> haRegex = re.compile(r' (Ha){3}') 
>>> mo1 = haRegex.search('HaHaHa') 
>>> mo1.group() 

"HaHaHa 


>>> mo2 = haRegex.search('Ha') 









































>>> mo2 == None 
True 

这 里 ，(Ha){f3} 匹 配 'HaHaHa'， 但 不 匹配 "Ha'。 因 为 它 不 匹配 Ha， 所 以 searchO 
返回 None。 





7.4 贪心 和 非 贪心 匹配 


在 字符 串 'HaHaHaHaHa' 中 ， 因 为 (Ha){3.5} 可 以 匹配 3 个 、4 个 或 5 个 实例 ， 你 可 能 
会 想 ， 为 什么 在 前 面 花 括号 的 例子 中 ，Match 对 象 的 group0 调 用 会 返回 HaHaHaHaHa'， 
而 不 是 更 短 的 可 能 结果 。 毕 况 ，'HaHaHa' 和 'HaHaHaHa' 也 能 够 有 效 地 匹配 正则 表达 
式 (Ha){3,5}。 

Python 的 正则 表达 式 默 认 是 “贪心 ”的 ， 这 表示 在 有 二 义 的 情况 下 ， 它 们 会 尽 
可 能 匹配 最 长 的 字符 串 。 花 括号 的 “ 非 贪心 ”版 本 匹配 尽 可 能 最 短 的 字符 串 ， 即 在 
结束 的 花 括号 后 跟着 一 个 问号 。 

在 交互 式 环 境 中 输入 以 下 代码 ， 注 意 在 查找 相同 字符 串 时 ， 花 括号 的 贪心 形式 
和 非 贪心 形式 之 间 的 区 别 : 
>>> greedyHaRegex = re.compile(r' (Ha){3,5}') 
>>> mo1 = greedyHaRegex.search('HaHaHaHaHa') 


>>> mo1.group() 
"HaHaHaHaHa 






























































































































































>>> nongreedyHaRegex = re.compile(r' (Ha){3,5}?') 
>>> mo2 = nongreedyHaRegex.search('HaHaHaHaHa') 
>>> mo2.group() 

"HaHaHa 




















请 注意 ， 问 号 在 正则 表达 式 中 可 能 有 两 种 含义 : 声明 非 贪心 匹配 或 表示 可 选 的 
分 组 。 这 两 种 含义 是 完全 无 关 的 。 
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7.5 findall( 方 法 


7.6 
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除了 search 方 法 外 ,Regex 对 象 也 有 一 个 findall0 方 法 。search() 将 返回 一 个 Match 
对 象 ， 包 含 被 查找 字符 串 中 的 “第 一 次 ”匹配 的 文本 ， 而 findall0 方 法 将 返回 一 组 
字符 串 ， 包 含 被 查找 字符 串 中 的 所 有 匹配。 为 了 看 看 search() 返 回 的 Match 对 象 只 
包含 第 一 次 出 现 的 匹配 文本 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 

>>> mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000') 
>>> mo.group() 

“415-555-9999 


另 一 方面 ，findall0 不 是 返回 一 个 Match 对 象 ， 而 是 返回 一 个 字符 串 列表 ， 只 要 
在 正则 表达 式 中 没有 分 组 。 列 表 中 的 每 个 字符 串 都 是 一 段 被 查找 的 文本 ， 它 匹配 该 
正则 表达 式 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups 
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000') 
['415-555-9999'，'212-555-0000'] 


如 果 在 正则 表达 式 中 有 分 组 ， 那 么 findall 将 返回 元 组 的 列表 。 每 个 元 组 表示 一 个 找 
到 的 匹配 , 其 中 的 项 就 是 正则 表达 式 中 每 个 分 组 的 匹配 字符 串 。 为 了 看 看 findall0 的 效果 ， 
请 在 交互 式 环境 中 输入 以 下 代码 〈 请 注意 ， 被 编译 的 正则 表达 式 现在 有 括号 分 组 ): 


>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has groups 
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000') 
[('415', '555', '1122'), ('212', '555', '0000')] 


作为 findall0 方 法 的 返回 结果 的 总 结 ， 请 记 住 下 面 两 点 : 

1. 如 果 调 用 在 一 个 没有 分 组 的 正则 表达 式 上 ， 例 如 \d\d\d-\d\d\d-\d\d\d\d， 方 法 
findall0 将 返回 一 个 匹配 字符 串 的 列表 ， 例 如 [415-555-9999', '212-555-00001]。 

2. 如 果 调 用 在 一 个 有 分 组 的 正则 表达 式 上 ， 例 如 Qd\d\q)-Qd\d\d)-Qd\d\d\qd), 方 
法 findall0 将 返回 一 个 字符 串 的 元 组 的 列表 (每 个 分 组 对 应 一 个 字符 囊 ), 例如 [(415', 
'555', '1122), (212', '555', '0000")]。 





































































































































































































































































































' 















































字符 分 类 






































企 前 面 电话 号 码 正则 表达 式 的 例子 中 ， 你 知道 \d 可 以 代表 任何 数字 。 也 就 是 说 ，\d 
是 正则 表达 式 (0|1|2|3|4|5|6|7|8|9) 的 缩写 。 有 许多 这 样 的 “缩写 字符 分 类 ” 如 表 7-1 所 示 。 
表 7-1 常用 字符 分 类 的 缩写 代码 






































缩写 字符 分 类 表示 
\d 0 到 9 的 任何 数字 
D 除 0 到 9 的 数字 以 外 的 任何 字符 
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续 表 



























































缩写 字符 分 类 表示 

\Ww 任何 字母 、 数 字 或 下 划 线 字符 《可 以 认为 是 匹配 “单词 ”字符 ) 
WW 除 字母 、 数 字 和 下 划 线 以 外 的 任何 字符 

\s 空格 、 制 表 符 或 换行 符 《〈 可 以 认为 是 匹配 “空白 ”字符 ) 

\S 除 空格 、 制 表 符 和 换行 符 以 外 的 任何 字符 

















字符 分 类 对 于 缩短 正则 表达 式 很 有 用 。 字 符 分 类 [0-5] 只 匹配 数字 0 到 5， 这 比 
输入 (0|1|2|3|4|5) 要 短 很 多 。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> xmasRegex = re.compile(r'\d+\s\w+') 

>>> xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 
swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge') 

['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '7 swans', '6 
geese', '5 rings', '4 birds', '3 hens', '2 doves', '1 partridge'] 


正则 表达 式 \d+\s\w+ 匹 配 的 文本 有 一 个 或 多 个 数字 (Cd+)， 接 下 来 是 一 个 空白 字 
符 (),， 接 下 来 是 一 个 或 多 个 字母 /数字 /下 划 线 字符 (w+)。findall0 方 法 将 返回 所 有 匹 
配 该 正则 表达 式 的 字符 串 ， 放 在 一 个 列表 中 。 













































































7.7 建立 自己 的 字符 分 类 


有 时 候 你 想 匹 配 一 组 字符 ， 但 缩写 的 字符 分 类 (d、\w、\s 等 ) 太 宽泛 。 你 可 
以 用 方 括号 定义 自己 的 字符 分 类 。 例 如 ， 字 符 分 类 [aeiouAEIOU] 将 匹配 所 有 元 音字 
符 ， 不 论 大 小 写 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> vowelRegex = re.compile(r'[aeiouAEIOU]') 
>>> vowelRegex.findall('RoboCop eats baby food. BABY FO00D.') 
[Os Ou “On, "60, "a Ma 0 Oi A .0 0] 

也 可 以 使 用 短 横 表 示 字 母 或 数字 的 范围 。 例 如 ， 字 符 分 类 [a-zA-Z0-9] 将 匹配 所 
有 小 写字 母 、 大 写字 母 和 数字 。 
请 注意 ， 在 方 括号 内 ， 普 通 的 正则 表达 式 符号 不 会 被 解释 。 这 意味 着 ， 你 不 需 
要 前 面 加 上 倒 斜 杠 转 义 .、*、? 或 0 字符 。 例 如 ， 字 符 分 类 将 匹配 数字 0 到 5 和 一 个 
句点 。 你 不 需要 将 它 写成 [0-5\.]。 
通过 在 字符 分 类 的 左 方 括号 后 加 上 一 个 插入 字符 〈^)， 就 可 以 得 到 “ 非 字符 类 ”。 
非 字符 类 将 匹配 不 在 这 个 字符 类 中 的 所 有 字符 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> ConsonantRegex = re.compile(r'[“^aeiouAEIOU]') 

>>> consonantRegex.findall('RoboCop eats baby food. BABY FO00D.') 

['R', 'b', ee 'p', ' 3 “4 "bs Wh ys 3 二 "gd a ' 
'B', 'B', YY,'', 'F', 'D', '.'"] 


现在 ， 不 是 匹配 所 有 元 音字 符 ， 而 是 匹配 所 有 非 元 音字 符 。 
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7.8 ”插入 字符 和 美元 字符 


可 以 在 正则 表达 式 的 开始 处 使 用 插入 符号 〈^)， 表 明 匹 配 必 须发 生 在 被 查找 文 
本 开始 处 。 类 似 地 ， 可 以 再 正则 表达 式 的 末尾 加 上 美元 符号 〈$)， 表 示 该 字符 串 必 
须 以 这 个 正则 表达 式 的 模式 结束 。 可 以 同时 使 用 ^ 和 $， 表 明 整 个 字符 串 必须 匹配 该 
模式 ， 也 就 是 说 ， 只 匹配 该 字符 串 的 某 个 子 集 是 不 够 的 。 

例如 ， 正 则 表达 式 r^Hello 匹 配 以 Hello 开 始 的 字符 串 。 在 交互 式 环境 中 输入 以 
下 代码 : 


>>> beginsWithHello = re.compile(r'^Hello') 

>>> beginsWithHello.search('Hello world!') 

<_sre.SRE Match object; span=(0, 5), match='Hello'> 
>>> beginsWithHello.search('He said hello.') == None 
True 


正则 表达 式 rd$' 匹 配 以 数字 0 到 9 结束 的 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> endsWithNumber = re.compile(r'\d$') 
>>> endsWithNumber.search('Your number is 42') 
<_sre.SRE Match object; span=(16, 17), match='2'> 





















































































































































>>> endsWithNumber.search('Your number is forty two.') == None 
True 

正则 表达 式 rAd+$' 匹 配 从 开始 到 结束 都 是 数字 的 字符 串 ,在 交互 式 环境 中 输入 
以 下 代码 : 


>>> wholeStringIsNum = re.compile(r'^\d+$') 

>>> wholeStringIsNum.search('1234567890') 

<_sre.SRE Match object; span=(0, 10), match='1234567890'> 
>>> wholeStringIsNum.search('12345xyz67890') == None 

True 

>>> wholeStringIsNum.search('12 34567890') == None 

True 


前 面 交 互 式 脚 本 例子 中 的 最 后 两 次 search0 调 用 表明 ， 如 果 使 用 了 ^ 和 $， 那 么 
整个 字符 串 必须 匹配 该 正则 表达 式 。 

我 总 是 会 混淆 这 两 个 符号 的 含义 ， 所 以 我 使 用 助 记 法 “Carrots cost dollars”， 提 
醒 我 插入 符号 在 前 面 ， 美 元 符号 在 后 面 。 































































































7.9” 通 配 字 符 
在 正则 表达 式 中 ，. 句点) 字符 称 为 “通配符 ”。 它 匹 配 除了 换行 之 外 的 所 有 
字符 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 
>>> atRegex = re.compile(r'.at') 
>>> atRegex.findall('The cat in the hat sat on the flat mat.') 
['cat', 'hat', 'sat', 'lat', 'mat'] 


要 记 住 ， 句 点 字符 只 匹配 一 个 字符 ， 这 就 是 为 什么 在 前 面 的 例子 中 ， 对 于 文本 
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flat， 只 匹配 lat。 要 逻 配 真正 的 句点 ， 就 是 用 倒 斜 杠 转 义 :\.。 




















7.9.1 用 点 - 星 匹 配 所 有 字符 
有 时 候 想 要 匹配 所 有 字符 串 。 例 如 ， 假 定 想 要 匹配 字符 串 'First Name:， 接 下 来 
是 任意 文本 , 接 下 来 是 Last Name:"， 然后 又 是 任意 文本 。 可 以 用 点 - 星 (.*) 表示 “ 任 
意 文本 ”。 回 忆 一 下 ， 名 点 字符 表示 “ 除 换行 外 所 有 单个 字符 ” 星 号 字符 表示 “前 
面 字符 出 现 零 次 或 多 次 ”。 

在 交互 式 环境 中 输入 以 下 代码 


>>> nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)') 
>>> mo = nameRegex.search('First Name: Al Last Name: Sweigart') 
>>> mo.group(1) 










































































>>> mo.group(2) 
'Sweigart' 


点 - 星 使 用 “贪心 ”模式 : 它 总 是 匹配 尽 可 能 多 的 文本 。 要 用 “ 非 贪心 ”模式 匹配 
所 有 文本 ， 就 使 用 点 - 星 和 问号 。 像 和 大 括号 一 起 使 用 时 那样 ， 问 号 告诉 Python 用 非 贪 
心 模式 匹配 。 在 交互 式 环 境 中 输入 以 下 代码 ， 看 看 贪心 模式 和 非 贪 心 模式 的 区 别 : 


>>> nongreedyRegex = re.compile(r'<.*?>') 

>>> mo = nongreedyRegex.search('<To serve man> for dinner.>') 
>>> mo.group() 

'<To Serve man> 



















































































>>> greedyRegex = re.compile(r'<.*>') 

>>> mo = greedyRegex.search('<To serve man> for dinner.> ') 
>>> mo.group() 

'<To Serve man> for dinner .> 











两 个 正则 表达 式 都 可 以 翻译 成 “匹配 一 个 左 尖 括 号 ， 接 下 来 是 任意 字符 ， 接 下 
来 是 一 个 右 尖 括号 ”。 但 是 字符 串 <To serve man> for dinner>' 对 右 肩 括号 有 两 种 可 能 以 
匹配 。 在 非 贪心 的 正则 表达 式 中 ，Python 匹配 最 短 可 能 的 字符 串 : '<To serve man> '。 
在 贪心 版 本 中 ，Python 匹配 最 长 可 能 的 字符 串 : '<To serve man> for dinner.>'。 




































































7.9.2 用 句点 字符 匹配 换行 
点 - 星 将 匹配 除 换行 外 的 所 有 字符 。 通 过 传 入 re.DOTALL 作为 re.compile0 的 第 
二 个 参数 ， 可 以 让 句点 字符 匹配 所 有 字符 ， 包 括 换行 字符 。 
在 交互 式 环 境 中 输入 以 下 代码 : 


>>> noNewlineRegex = re.compile('.*') 

>>> noNewlineRegex.search('Serve the public trust.\nProtect the innocent . 
\nUphold the law.').group() 

'Serve the public trust.， 



































>>> newlineRegex = re.compile('.*', re.DOTALL) 
>>> newlineRegex.search('Serve the public trust.\nProtect the innocent . 
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\nUphold the law.').group() 
'Serve the public trust.\nProtect the innocent.\nUphold the law.’ 


正则 表达 式 noNewlineRegex 在 创建 时 没有 向 re.compile0 传 入 re.DOTALL， 它 
将 匹配 所 有 字符 ， 直 到 第 一 个 换行 字符 。 但 是 ，newlineRegex 在 创建 时 向 re.compile0 传 
入 了 re.DOTALL， 它 将 匹配 所 有 字符 。 这 就 是 为 什么 newlineRegex.searchO 调 用 匹配 完 
整 的 字符 串 ， 包 括 其 中 的 换行 字符 。 




































































7.10 ”正则 表达 式 符 号 复习 


本 章 介绍 了 许多 表示 法 ， 所 以 这 里 快速 复习 一 下 学 到 的 内 容 : 
。 ?匹配 零 次 或 一 次 前 面 的 分 组 。 
。 *# 匹 配 零 次 或 多 次 前 面 的 分 组 。 
。 + 匹配 一 次 或 多 次 前 面 的 分 组 。 

。 {n} 匹 配 n 次 前 面 的 分 组 。 

。 {n,} 匹 配 n 次 或 更 多 前 面 的 分 组 。 

。 {m} 匹 配 零 次 到 mm 次 前 面 的 分 组 。 

。 {n,m} 匹 配 至 少 n 次 、 至 多 m 次 前 面 的 分 组 。 
。 {nmj? 或 或 +? 对 前 面 的 分 组 进行 非 贪心 匹配 。 
。 ^spam 意味 着 字符 串 必须 以 spam 开始 。 

。 spam$ 意 味 着 字符 串 必须 以 spam 结束 。 

。 .匹配 所 有 字符 ， 换 行 符 除 外 。 
。\d、\w 和 \ 分 别 匹 配 数字 、 单 词 和 空格 。 

。 MD、\W 和 \S 分 别 匹配 出 数字 、 单 词 和 空格 外 的 所 有 字符 。 
。 [abc] 匹 配方 括号 内 的 任意 字符 (诸如 a、b 或 c)。 

。 [^abc] 匹 配 不 在 方 括号 内 的 任意 字符 。 
















































































































































































7.11 不 区 分 大 小 写 的 匹配 


通常 ， 正 则 表达 式 用 你 指定 的 大 小 写 匹配 文本 。 例如， 下 面 的 正则 表达 式 匹 配 
完全 不 同 的 字符 串 : 


>>> regex1 = re.compile(' Robocop ') 
>>> regex2 = re.compile('ROBOCOP') 
>>> regex3 = re.compile('rob0cop ') 
>>> regex4 = re.compile('RobocOp') 


但 是 ， 有 时 候 你 只 关心 匹配 字母 ， 不 关心 它们 是 大 写 或 小 写 。 要 让 正则 表达 式 
不 区 分 大 小 写 ， 可 以 向 re.compile0 传 入 re.IGNORECASE 或 re.I， 作 为 第 二 个 参数 。 
在 交互 式 环境 中 输入 以 下 代码 : 
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>>> robocop = re.compile(r' robocop' ，re.I) 


>>> robocop.search('RoboCop is part man, part machine, all cop.').group() 
'RoboCop' 


>>> robocop.search('ROBOCOP protects the innocent.').group() 
“ROBOCOP 


>>> robocop.search('Al, why does your programming book talk about robocop so much? ' ) .group() 
"Pobocop， 


7.12 用 sub( 方 法 雁 换 字符 串 


正则 表达 式 不 仅 能 找到 文本 模式 , 而 且 能 够 用 新 的 文本 蔡 换 掉 这 些 模式 。Regex 
对 象 的 sub0 方 法 需要 传 入 两 个 参数 。 第 一 个 参数 是 一 个 字符 串 , 用 于 取代 发 现 的 匹 
配 。 第 二 个 参数 是 一 个 字符 串 , 即 正则 表达 式 。sub0 方 法 返回 蔡 换 完成 后 的 字符 串 。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> namesRegex = re.compile(r'Agent \w+') 
>>> namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.') 
'CENSORED gave the secret documents to CENSORED.' 


有 时 候 ， 你 可 能 需要 使 用 匹配 的 文本 本 身 ， 作 为 替换 的 一 部 分 。 在 sub0 的 第 一 
个 参数 中 , 可 以 输入 \1、 2、\3...... 。 表 示 “ 在 替换 中 输入 分 组 1、2、3...... 的 文本 ”。 
例如 ， 假 定 想 要 隐 去 密探 的 姓名 ， 只 显示 他 们 姓名 的 第 一 个 字母 。 要 做 到 这 一 
点 ， 可 以 使 用 正则 表达 式 Agent Mw)\w*， 传 入 1****' 作 为 sub0 的 第 一 个 参数 。 字 
符 串 中 的 \1 将 由 分 组 1 匹配 的 文本 所 奉 代 ， 也 就 是 正则 表达 式 的 Cw) 分 组 。 


>>> agentNamesRegex = re.compile(r'Agent (\w)\w*') 

>>> agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent 
Eve knew Agent Bob was a double agent.') 

A**** told C**** that E**** knew B**** Was a double agent.' 


7.13 ”管理 复杂 的 正则 表达 式 


如 果 要 [| 匹配 的 文本 模式 很 简单 ， 正 则 表达 式 就 很 好 。 但 匹配 复杂 的 文本 模式 ， 
可 能 需要 长 的 、 费 解 的 正则 表达 式 。 你 可 以 告诉 re.compileO)， 忽 略 正则 表达 式 字 符 
串 中 的 空白 符 和 注释 ， 从 而 缓解 这 一 点 。 要 实现 这 种 详细 模式 ， 可 以 向 re.compile() 
传 入 变量 re.VERBOSE， 作 为 第 二 个 参数 。 

现在 ， 不 必 使 用 这 样 难以 阅读 的 正则 表达 式 : 


phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|- 
(\s*(ext|x|lext.)\s*\d{2,5})?)') 



























































































































































































































































\.)\d{4} 
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你 可 以 将 正则 表达 式 放 在 多 行 中 ， 并 加 上 注释 


phoneRegex = re.compile(r'''!( 
(\d{3}|\(\d{3}\))? # area code 
(\s|-|\.)? # separator 


像 这 样 : 
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7.14 


7.15 


\d{3} 
(\s|-1\.) 
\d{4} 


(\s*(ext|x|lext.)\s*\d{2,5})? 


# first 3 digits 
# separator 
# last 4 digits 
# extension 


)''', re.VERBOSE) 




















正 贝 
到 行 末 的 内 容 ， 


而 


也 不 认为 是 要 匹配 的 文本 模式 的 一 部 分 。 





请 注意 ， 前 面 的 例子 使 用 
将 正则 表达 式 定义 放 在 多 行 ! 
表达 式 字符 串 中 的 注释 规则 ， 与 普通 的 Python 代码 一 样 : # 符 号 和 它 后 面 直 
， 多 余 的 空白 字符 











了 了 三重 引号 ("), 创建 了 一 个 多 行 字 符 
， 让 它 更 可 读 。 















































都 被 忽略 。 而 且 ， 表 示 正 则 表达 式 的 多 行 字符 串 ! 
这 让 你 能 够 组 织 正 则 表达 式 
































使 用 re.VERBOSE 来 编写 注释 
么 办 ? 遗憾 的 是 ，re.compile( 
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Lu 





























样 
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造 re.comp 





















































ile() 调 用 : 


>>> someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL) 











>>> someRegexValue = re.compile('foo', 


这 个 语法 有 一 点 老式 , 源 自 于 早期 的 Python 版 本 。 位 运算 符 的 细节 超出 了 本 书 

















使 用 第 二 个 参数 的 全 部 3 个 选项 ， 看 起 来 像 这 样 : 


re.IGNORECASE | re.DOTALL | re.VERBOSE) 


















































。 这 样 就 可 以 

















， 让 它 更 可 读 。 


组 合 使 用 re.IGNOREC ASE、re.DOTALL 和 re.VERBOSE 


如 果 你 希望 在 正则 表达 式 上 
re.IGNORECASE 来 忽略 大 小 写 ， 该 怎 
个 值 作为 它 的 第 二 参数 。 可 以 使 用 管道 字符 
1。 管 道 字符 在 这 里 称 为 “ 按 位 或 ”操作 符 。 
所 以 ， 如 果 希 望 正 则 表达 式 不 区 分 大 小 写 ， 并 且 句 点 字符 匹配 换行 ， 就 可 以 这 


， 还 希望 使 用 
) 函 数 只 接受 一 





(|) 将 变量 组 合 起 来 ， 从 而 绕 过 这 个 限 


的 范围 ， 更 多 的 信息 请 查看 资源 http://nostarch.com/automatestuff/。 可 以 向 第 二 个 参 


数 传 入 其 他 选项 ， 它 们 不 常用 ， 但 你 也 可 以 在 前 


















































项 目 : 电话 号 码 和 E-mail 地 址 提取 程序 








用 的 资源 中 找到 有 关 它 们 的 信息 。 


假设 你 有 一 个 无 聊 的 任务 ， 要 在 一 篇 长 的 网 页 或 文章 中 ， 找 出 所 有 电话 号 码 和 





邮件 地 址 。 如 果 手 动 翻 页 ， 可 能 需要 查找 很 长 时 间 。 如 果 有 
查找 电话 号 码 和 E-mail 地 址 ， 那 你 就 只 要 按 一 下 Ctrl-A 选择 所 有 文本 ， 

































































板 的 文本 























个 程序 ， 可 以 在 剪贴 





按 下 Ctrl-C 将 它 复制 到 剪贴 板 , 然后 运行 你 的 程序 。 它 会 用 找到 的 电话 号 码 和 E-mail 











好 是 后 退 一 步 ， 





什么 。 暂 时 不 要 思 





地 址 ， 蔡 换 掉 剪 贴 板 中 的 文本 。 
当 你 开始 接手 一 个 新 项 目 



























































考虑 更 大 的 图 景 。 
真正 的 代码 ， 稍 后 





















































例如 ， 你 的 电话 号 码 和 E-mail 地 址 提取 程序 需要 完成 以 下 任务 : 
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时 ， 很 容易 想 要 直接 开始 写 代 码 。 但 更 多 的 时 候 ， 最 
我 建议 先 草拟 高 层次 的 计划 ， 弄 清楚 程序 需要 做 
来 考虑 。 现 在 ， 先 关注 大 框架 。 

























































































































































































其 中 的 每 一 步 。 


。 从 剪贴 板 取得 文本 。 
。 找 出 文本 中 所 有 的 电话 号 码 和 E-mail 地 址 。 
。 将 它们 粘贴 到 剪贴 板 。 
现在 你 可 以 开始 思考 ， 如 何 用 代码 来 完成 工作 。 代 码 需 要 做 下 面 的 事情 : 
。 使 用 pyperclip 模块 复制 和 粘贴 字符 串 。 
。 创建 两 个 正则 表达 式 ， 一 个 匹配 电话 号 码 ， 另 一 个 匹配 E-mail 地 址 。 
。 对 两 个 正则 表达 式 ， 找 到 所 有 的 匹配 ， 而 不 只 是 第 一 次 匹配 。 
。 将 匹配 的 字符 串 整理 好 格式 ， 放 在 一 个 字符 串 中 ， 用 于 粘贴 。 
。 如 果 文 本 中 没有 找到 匹配 ， 显 示 某 种 消息 。 
这 个 列表 就 像 项 目的 路 线 图 。 在 编写 代码 时 ， 可 以 独立 地 关注 
每 一 步 都 很 好 管理 。 它 的 表达 方式 让 你 知道 在 Python 中 如 何 去 做 。 



































第 1 步 : 为 电话 号 码 创建 一 个 正则 表达 式 
首先 ， 你 需要 创建 一 个 正则 表达 式 来 查找 i 
下 代码 ， 保 存 为 phoneAndEmail.py: 


#! python3 
# phoneAndEmail.py - 



































Finds phone numbers and email addresses on the clip 
import pyperclip, re 


phoneRegex = re.compile(r'''( 


(\d{3}|\(\d{3}\))? # area code 


(\s|-1\.)? # separator 
(\d{3}) # first 3 digits 
(\s|-1\.) # separator 
(\d{4}) # last 4 digits 
(\s*(ext|x|lext.)\s*(\d{2,5}))? # extension 
)''',， re.VERBOSE) 


# TODO: Create email regex. 
# TODO: Find matches in clipboard text. 
# TODO: Copy results to the clipboard. 


TODO 注释 仅仅 是 程序 的 框架 。 当 编 


性 


了 真正 的 代码 时 ， 它 们 会 














电话 号 码 。 创 建 一 个 新 文件 ， 输 入 以 





board . 


被 蔡 换 掉 。 











， 所 以 区 号 分 组 跟着 一 个 
的 3 个 数字 〈 即 \Adf{3}N) 
E 则 表达 式 注 























电话 号 码 从 一 个 “可 选 的 ”区 号 开始 

3 个 数字 ( 即 \d{3})， 或 括号 

接 这 两 部 分 。 可 以 对 这 部 分 多 行 字 符 串 加 上 站 
记忆 Qd{3}NQd{3}D)? 要 了 匹配 的 是 什么 。 

割 字符 可 以 是 空格 Ws)、 短 横 (-) 或 句点 (.)， 所 






































连 
































已 
宝 || 心太 夺 vy 
吾 : 丰 工 


话 号 人 码 分 割 字 符 
管道 连接 。 这 个 正则 表达 式 接 下 来 的 几 部 分 很 简单 :3 个 数字 
个 分 割 符 ， 接 下 来 是 4 个 数字 。 最 后 的 部 分 是 可 选 的 分 机 号 ， 包 括 从 






























































问号 。 因 为 区 号 
， 所 以 应 该 用 管 


释 # Area code， 





以 这 些 部 分 也 应 
， 接 下 来 是 另 一 
FE 意 数目 的 空格 ， 


























接着 ext、x 或 ext.， 再 接着 2 到 5 位 数字 。 
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第 2 步 : 为 E-mail 地 址 创建 一 个 正则 表达 式 
还 需要 一 个 正则 表达 式 来 匹配 E-mail 地 址 。 让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 
import pyperclip, re 











phoneRegex = re.compile(r'''( 
--SNip-- 


# Create email regex. 
emailRegex = re.compile(r'''( 


0 [a-zA-20-9. %+-]+ # username 

© @ # @ symbol 

© [a-zA-Z0-9.-]+ # domain name 
(\.[a-zA-Z]{2,4}) # dot-something 


)''', re.VERBOSE) 

# TODO: Find matches in clipboard text. 
# TODO: Copy results to the clipboard. 

E-mail 地 址 的 用 户 名 部 分 @ 是 一 个 或 多 个 字符 ， 字 符 可 以 包括 : 小 写 和 大 写字 
母 、 数 字 、 句 点 、 下 划 线 、 百 分 号 、 加 号 或 短 横 。 可 以 将 所 有 这 些 放 入 一 个 字符 分 
类 : [a-zA-Z0-9._%+-]。 

域名 和 用 户 名 用 @ 符 号 分 割 @, 域名 稀 允 许 的 字符 分 类 要 少 一 些 ， 只 允许 字母 、 
数字 、 句 点 和 短 横 ，[a-zA-Z0-9.-]。 最 后 是 “dot-com” 部 分 (技术 上 称 为 “顶级 域 
名 ”)， 它 实际 上 可 以 是 “dot-anything” 它 有 2 到 4 个 字符 。 

E-mail 地 址 的 格式 有 许多 奇怪 的 规则 。 这 个 正则 表达 式 不 会 匹配 所 有 可 能 的 、 
有 效 的 E-mail 地 址 ， 但 它 会 匹配 你 遇 到 的 大 多 数 典 型 的 电子 邮件 地 址 。 




















































































































第 3 步 : 在 剪贴 板 文本 中 找到 所 有 匹配 
既然 已 经 指定 了 电话 号 码 和 电子 邮件 地 址 的 正则 表达 式 ， 就 可 以 让 Python 的 re 
模块 做 辛 兰 的 工作 ， 查 找 剪 贴 板 文本 中 所 有 的 匹配 。pyperclip.pasteO0 函 数 将 取得 一 人 
字符 串 ， 内 容 是 剪贴 板 上 的 文本 ，findall0 正 则 表达 式 方法 将 返回 一 个 元 组 的 列表 。 
让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 













































































import pyperclip, re 


phoneRegex = re.compile(r'''!( 
--SNip-- 


# Find matches in clipboard text. 
text = str(pyperclip.paste()) 
© matches = [] 
@ for groups in phoneRegex.findall(text): 
phoneNum = '-'.join([groups[1], groups[3], groups[5]]) 
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if groups[8] != "" 
phoneNum += ' x' + groups[8] 
matches.append(phoneNum) 
© for groups in emailRegex.findall(text): 
matches.append(groups[0]) 


# TODO: Copy results to the clipboard. 

每 个 匹配 对 应 一 个 元 组 ， 每 个 元 组 包含 正则 表达 式 中 每 个 分 组 的 字符 串 。 回 忆 一 
下 ， 分 组 0 匹配 整个 正则 表达 式 ， 所 以 在 元 组 下 标 0 处 的 分 组 ， 就 是 你 感 兴 趣 的 内 容 。 

在 @ 处 可 以 看 到 ， 你 将 所 有 的 匹配 保存 在 名 为 matches 的 列表 变量 中 。 它 从 一 
个 空 列表 开始 ， 经 过 几 个 for 循环 。 对 于 E-mail 地 址 ， 你 将 每 次 匹配 的 分 组 0 添加 
到 列表 中 @。 对 于 匹配 的 电话 号 码 ， 你 不 想 只 是 添加 分 组 0。 虽然 程序 可 以 “检测 ” 
几 种 不 同形 式 的 电话 号 码 ， 你 希望 添加 的 电话 号 码 是 唯一 的 、 标 准 的 格式 。 
phoneNum 变量 包含 一 个 字符 串 ， 它 由 匹配 文本 的 分 组 1、3、5 和 8 构成 @。( 这 些 
分 组 是 区 号 、 前 3 个 数字 、 后 4 个 数字 和 分 机 号 。) 


第 4 步 : 所 有 匹配 连接 成 一 个 字符 串 ， 复 制 到 剪 贴 板 
现在 ，E-mail 地 址 和 电话 号 码 已 经 作为 字符 串 列表 放 在 matches 中 ， 你 希望 将 
它们 复制 到 剪贴 板 。pyperclip.copy0 函 数 只 接收 一 个 字符 串 值 ， 而 不 是 字符 串 的 列 
表 ， 所 以 你 在 matches 上 调用 join() 方 法 。 
为 了 更 容易 看 到 程序 在 工作 ， 让 我 们 将 所 有 找到 的 匹配 都 输出 在 终端 上 。 如 果 
没有 找到 电话 号 码 或 E-mail 地 址 ， 程 序 应 该 告诉 用 户 。 
让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 

























































































































































































































































































--SNip-- 
for groups in emailRegex.findall(text): 
matches.append(groups[0]) 


# Copy results to the clipboard. 
if len(matches) > 0: 
pyperclip.copy('\n'.join(matches)) 
print('Copied to clipboard:') 
print('\n'.join(matches)) 
else: 
print('No phone numbers or email addresses found.') 


第 5 步 : 运行 程序 
作为 一 个 例子 ， 打 开 你 的 Web 浏览 器 ， 访 问 No Starch Press 的 联系 页 面 
http://www.nostarch.com/contactus.htm。 按 下 Ctrl-A 选择 该 页 的 所 有 文本 , 按 下 Ctrl-C 
将 它 复制 到 剪贴 板 。 运 行 这 个 程序 ， 输 出 看 起 来 像 这 样 : 


Copied to clipboard: 
800-420-7240 
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415-863-9900 
415-863-9950 
info@nostarch.com 
media@nostarch.com 
academic@nostarch.com 
help@nostarch.com 


第 6 步 : 类 似 程序 的 构想 























识别 文本 的 模式 (并 且 可 能 用 sub0 方 法 蔡 换 它们 )〉 有 



































。 寻找 网 站 的 URL， 它 们 以 http:// 或 https:/ 开 始 。 


























。 整理 不 同日 期 格式 的 日 期 (诸如 3/14/2015、03-14-2015 和 2015/3/14)， 用 唯 








的 标准 格式 替代 。 
。 删除 敏感 的 信息 ， 诸 如 社会 保险 号 或 信用 卡号 。 

















。 寻找 常见 打字 错误 ， 诸 如 单词 间 的 多 个 空格 、 不 小 心 习 





尾 处 多 个 感叹 号 。 它 们 很 烦人 1!! 


7.16 “小 结 
虽然 计算 机 可 以 很 快 地 查找 文本 ， 但 你 必须 精确 地 告 











许多 不 同 潜在 的 应 用 。 


















































E 复 的 单词 ,或 者 句子 末 





诉 它 要 找 什么 。 正 则 表达 





式 让 你 精确 地 指明 要 找 的 文本 模式 。 实 际 上 ， 某 些 文字 处 
查找 替换 功能 ， 让 你 使 用 正则 表达 式 进 行 查 找 。 





















































Python 自 带 的 re 模块 让 你 编译 Regex 对 象 。 该 对 象 有 几 逢 














里 和 电子 表格 应 用 提供 了 























! 方 法 : search() 查 找 


单词 匹配 ， findali0 查 找 所 有 匹配 实例 ，subO 对 文本 进行 查找 和 蔡 换 。 










































































expressions.info/ 也 是 很 有 用 的 资源 。 








除 本 章 介绍 的 语法 以 外 , 还 有 一 些 正则 表达 式 语法 。 你 可 以 
中 找到 更 多 内 容 : http://docs.python.org/3/ibrary/re.html。 指 南 网 站 http://www.regular- 








在 官方 Python 文档 








既然 已 经 掌握 了 如 何 操纵 和 匹配 字符 串 ， 接 下 来 就 该 学 习 如 何在 计算 机 硬盘 上 











读 写 文件 了 。 


7.17 习 


陪 

















创建 Regex 对 象 的 函数 是 什么 ? 
在 创建 Regex 对 象 时 ， 为 什么 常 
search() 方 法 返回 什么 ? 





— 





原始 字符 串 ? 

















全 PP 王 























5. 用 rAd\d\d)-Qd\d\d-\d\d\d\d)' 创 建 的 正则 表达 式 中 ， 
呢 ? 分 组 2 呢 ? 











通过 Match 对 象 ， 如 何 得 到 匹配 该 模式 的 实际 字符 串 ? 





分 组 旨 0 








表示 什么 ? 分 组 1 


6. 括号 和 句点 在 正则 表达 式 语 法 中 有 特殊 的 含义 。 如 何 指定 正则 表达 式 匹 配 
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真正 的 括号 和 句点 字符 ? 

7. findall0 方 法 返回 一 个 字符 串 的 列表 ， 或 字符 串 元 组 的 列表 。 是 什么 决定 它 
提供 哪 种 返回 ? 

8. 在 正则 表达 式 中 ，| 字 符 表 示 什 么 意思 ? 

9. 在 正则 表达 式 中 ，? 字 符 有 哪 两 种 含义 ? 















































































































































10. 在 正则 表达 式 中 ，+ 和 * 字 符 之 间 的 区 别 是 什么 ? 

11. 在 正则 表达 式 中 ，{3} 和 {3,5} 之 间 的 区 别 是 什么 ? 

12. 在 正则 表达 式 中 ，\d、\w 和 \s 缩写 字符 类 是 什么 意思 ? 

13. 在 正则 表达 式 中 ，\D、\W 和 \S 缩写 字符 类 是 什么 意思 ? 

14. 如 何 让 正则 表达 式 不 区 分 大 小 写 ? 

15. 字符 .通常 匹配 什么 ? 如 果 re.DOTALL 作为 第 二 个 参数 传递 给 re.compile()， 
它 会 匹配 什么 ? 

16. 和 *? 之 间 的 区 别 是 什么 ? 





























17. 匹配 所 有 数字 和 小 写字 和 母 的 字符 分 类 语法 是 什么 ? 

18. 如 果 numRegex = re.compile(r\d+'"), 那么 numRegex.sub(X', '12 drummers, 11 
pipers, five rings, 3 hens) 返 回 什 么 ? 

19. 将 re.VERBOSE 作为 第 二 个 参数 传递 给 re.compile0， 让 你 能 做 什么 ? 

20. 如 何 写 一 个 正则 表达 式 ， 匹 配 每 3 位 就 有 一 个 逗号 的 数字 ?” 它 必须 匹配 以 
下 数字 : 

e 42， 

e ']1,234' 

e '60,368,745' 

但 不 会 匹配 : 

。 '12,34,567' (逗号 之 间 只 有 两 位 数字 ) 

。 '1234 《缺少 逗号 ) 

21. 如 何 写 一 个 正则 表达 式 ， 匹 配 姓 Nakamoto 的 完整 姓名 ? 你 可 以 假定 名 字 
总 是 出 现在 姓 前 面 ， 是 一 个 大 写字 母 开 头 的 单词 。 该 正则 表达 式 必须 匹配 : 

e 'Satoshi Nakamoto' 

e ‘'Alice Nakamoto' 

e RoboCop Nakamoto' 

但 不 匹配 : 

。 'satoshi Nakamoto' (名 字 没 有 大 写 首 字母 ) 

。 'Mr Nakamoto'〈 前 面 的 单词 包含 非 字 母 字 符 ) 

。 'Nakamoto' 〈 没 有 名 字 ) 

e。 'Satoshi nakamoto'〈 姓 没有 首 字母 大 写 ) 

22. 如 何 编写 一 个 正则 表达 式 匹 配 一 个 句子 ， 它 的 第 一 个 词 是 Alice、Bob 或 
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Carol， 第 二 个 词 是 eats、pets 或 throws， 第 三 个 词 是 apples、cats 或 baseballs。 该 句 
子 以 句点 结束 。 这 个 正则 表达 式 应 该 不 区 分 大 小 写 。 它 必须 匹配 : 


e Alice eats apples. 








e Bob pets cats. 

e 'Carol throws baseballs. 

e 'Alice throws Apples. 

e BOB EATS CATS. 

但 不 匹配 : 

e 及 oboCop eats apples.' 

e。 ALICE THROWS FOOTBALLS. 


e Carol eats 7 cats.' 


7.18 ”实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 




















7.18.1 强 口令 检测 
写 一 个 函数 ， 它 使 用 正则 表达 式 ， 确 保 传 入 的 口令 字符 串 是 强 口 令 。 强 口令 的 
定义 是 : 长 度 不 少 于 8 个 字符 ， 同 时 包含 大 写 和 小 写字 符 ， 至 少 有 一 位 数字 。 你 可 
能 需要 用 多 个 正则 表达 式 来 测试 该 字符 串 ， 以 保证 它 的 强度 。 












































7.18.2 strip() 的 正则 表达 式 版 本 
写 一 个 函数 ， 它 接受 一 个 字符 串 ， 做 的 事情 和 strip0 字 符 串 方法 一 样 。 如 果 只 
传 入 了 要 去 除 的 字符 串 ， 没 有 其 他 参数 ， 那 么 就 从 该 字符 串 首尾 去 除 空白 字符 。 否 
则 ， 函 数 第 二 个 参数 指定 的 字符 将 从 该 字符 串 中 去 除 。 
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读 写 文 件 




















当 程 序 运行 时 ， 变 量 是 保存 数据 的 好 方法 ， 但 如 果 希 望 
程序 结束 后 数据 仍然 保持 ， 就 需要 将 数据 保存 到 文件 中 。 你 
可 以 认为 文件 的 内 容 是 一 个 字符 串 值 ， 大 小 可 能 有 几 个 GB。 
在 本 章 中 ， 你 将 学 习 如 何 使 用 Python 在 硬盘 上 创建 、 读 取 和 
保存 文件 。 















































8.1 文件 与 文件 路 径 


文件 有 两 个 关键 属性 :“ 文 件 名 ”( 通 常 写成 一 个 单词 ) 和“ 路径”。 路 径 指 明了 文 
件 在 计算 机 上 的 位 置 。 例 如 ， 我 的 Windows 7 笔记 本 上 有 一 个 文件 名 为 projects.docx， 
它 的 路 径 在 C:\Users\asweigart\Documents。 文 件 名 中 ， 最 后 一 个 句点 之 后 的 部 分 称 为 文 
件 的 “扩展 名 ”, 它 指出 了 文件 的 类 型 。project.docx 是 一 个 Word 文档 , Users、asweigart 
和 Documents 都 是 指 “ 文 件 夹 ”( 也 成 为 目录 )。 文 件 夹 可 以 包含 文件 和 其 他 文件 夹 。 
例如 , project.docx 在 Documents 文件 夹 中 , 该 文件 夹 又 在 asweigart 文件 夹 中 , asweigart 
文件 夹 又 在 Users 文件 夹 中 。 图 8-1 展示 了 这 个 文件 夹 的 组 织 结构 。 

路 径 中 的 C:\ 部 分 是 “ 根 文件 来”， 它 包含 了 所 有 其 他 文件 来 。 在 Windows : 

































































































































































根 文人 






































F 夹 名 为 C\， 也 称 为 C: 盘 。 在 OSX 和 LinuxF 
F 夹 ，C:\。 如 果 你 在 OS X 或 Linux 上 输入 交互 式 环 ] 








我 使 用 Windows 风格 的 根 文 从 
的 例子 ， 请 用 /代替 。 
CN 
E Users 


8-1 在 文件 夹层 次 结构 中 的 一 个 文 


附加 卷 ,诸如 DVD 3 





上 上 上， 它们 表示 为 新 的 文 伯 





文件 夹 ， 在 /mnt〈"mount") 文件 夹 下 。 同 时 也 要 注意 ， 


Windows 和 OS X 上 是 不 区 分 大 小 写 的 ， 但 在 Linux 上 


L 
L 
L 


asweigart 


Documents 











K 动 器 或 USB 闪存 驱动 器 ， 


同 。 在 Windows 上 ,它们 表示 为 新 的 、 带 字符 的 根 纪 














> 





project. docx 











F 夹 ， 在 /Volumes 文 伯 


区 动 器 。 诸 如 





根 文人 


F 夹 是 /。 在 本 书 








~ 




















在 不 同 的 操作 系统 上 显示 
D: 或 E'\。 在 OSX 





也 不 





F 夹 下 。 在 Linux 上 ， 它 们 表示 为 新 的 


























[ee 
所 





及 





月 
外 








区 分 大 小 写 的 。 


8.1.1 Windows 上 的 倒 斜 杠 以 及 OS X 和 Linux 上 的 正 斜 杠 


在 Windows 上 ， 路 径 
正和 斜 杠 作为 它们 的 路 径 分 B 
写 Python 脚本 时 ， 就 必须 处 至 

















Linux 上 ， 使 
中 在 编 
好 在 ， 有 月 




















仿 | 









































书写 使 


] 倡 


es 


余 
Hv 








这 





人 0 
>>> import os 
>>> os.path.join('usr', 'bin', 'spam') 


'usr\\bin\\spam’ 


百 友 合 


网 符 。 
两 种 情况 。 
有 os.path.join() 函 数 来 做 这 件 事 很 简单 
件 夹 名 称 的 字符 串 传递 给 它 ，os.path.join(0) 就 会 返 


| 杠 作 为 文件 夹 之 间 昌 





如 


























口 











。 如 果 将 单 
一 个 文人 
的 路 径 分 隔 符 。 在 交互 式 环境 中 输入 以 下 代码 ; 





























万 入 器 


符 中 





路 径 的 字 





,包含 正 


然 文 件 夹 名 称 和 文件 名 在 


分 隔 符 。 但 在 OS X 和 
果 想 要 程序 运行 在 所 有 操作 系统 


个 文件 和 路 径 上 的 文 





我 在 Windows 上 运行 这 些 交 互 式 环境 的 例子 ， 所 以 ，os.path .join(usr，bin， 





spam) 返 回 usrNbinNspam 


srYbin/spam 。 





如 果 需 要 创建 文件 名 称 的 
递 给 几 个 文件 相关 的 函数 ， 本 章 将 进行 介 








"(请 六 








> 太 代 器 


字符 


后 


,Os.path 























o 





中 的 名 称 ， 添 加 到 文件 夹 名 称 的 末尾 。 
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FE 意 ， 倒 斜 杠 有 两 个 ， 
倒 斜 杠 字 符 来 转 义 )。 如 果 我 在 OS X 或 Linux 上 jj 





因为 每 个 倒 斜 杠 需要 由 


























有 


joinO 函 数 胃 





> 友 夺 器 











很 有 











天 
这 个 函数 ， 该 字符 串 就 会 是 





将 传 





于 付 量 








例如 ， 下 








的 例子 将 一 个 文件 名 列表 


>>> myFiles = ['accounts.txt', 'details.csv', 'invite.docx'] 
>>> for filename in myFiles: 
print(os.path.join('C:\\Users\\asweigart', filename)) 
C:\Users\asweigart\accounts.txt 
C:\Users\asweigart\details.csyv 
C:\Users\asweigart\invite.docx 


8.1.2 ”当前 工作 目录 
每 个 运行 在 计算 机 上 的 程序 ， 都 有 一 个 “当前 工作 目录 ” 或 cwd。 所 有 没有 
从 根 文件 夹 开 始 的 文件 名 或 路 径 , 都 假定 在 当前 工作 目录 下 。 利 用 os.getcwd0 函 数 ， 
可 以 取得 当前 工作 路 径 的 字符 串 ， 并 可 以 利用 os.chdirO 改 变 它 。 在 交互 式 环 境 中 输 
入 以 下 代码 : 
>>> import os 
>>> os.getcwd() 
'C:\\Python34’ 
>>> os.chdir('C:\\Windows\\System32') 


>>> os.getcwd() 
'C:\\Windows\\System32'" 


这 里 ， 当 前 工作 目录 设置 为 C:\Python34， 所 以 文件 名 project.docx 指向 
C:\Python34\projectdocx。 如 果 我 们 将 当前 工作 目录 改 为 C:\Windows， 文 件 就 被 解 
释 为 C:\Windows\project.docx。 

如 果 要 更 改 的 当前 工作 目录 不 存在 ，Python 就 会 显示 一 个 错误 。 


>>> os.chdir('C:\\ThisFolderDoesNotExist') 
Traceback (most recent call last): 
File "<pyshell#18>", line 1, in <module> 
os.chdir('C:\\ThisFolderDoesNotExist') 
FileNotFoundError: [WinError 2] The system cannot find the file specified: 
'C:\\ThisFolderDoesNotExist' 
























































































































































注意 虽然 文件 夹 是 目录 的 更 新 的 名 称 ， 但 请 注意 ， 当 前 工作 目录 (或 当前 目录 ) 是 
标准 术语 ， 没 有 当前 工作 文件 夹 这 种 说 法 。 





8.1.3 ”绝对 路 径 与 相对 路 径 
有 两 种 方法 指定 一 个 文件 路 径 。 
。 “绝对 路 径 ” 总 是 从 根 文件 夹 开始 。 
。 “相对 路 径 ” 它 相 对 于 程序 的 当前 工作 目录 。 

还 有 点 〈.) 和 点 点 〈..) 文件 夹 。 它 们 不 是 真正 的 文件 夹 ， 而 是 可 以 在 路 径 ， 
使 用 的 特殊 名 称 。 单 个 的 句点 (“点”) 用 作文 件 严 目 名 称 时 ， 是 “这 个 目录 ”的 缩 
写 。 两 个 句点 (“点点”) 意思 是 父 文件 夹 。 

图 8-2 是 一 些 文件 夹 和 文件 的 例子 。 如 果 当 前 工作 目录 设置 为 C:\bacon， 这 些 
文件 夹 和 文件 的 相对 目录 ， 就 设置 为 图 8-2 所 示 的 样子 。 
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相对 路 径 绝对 路 径 


CN 了 | | 
ee i bacon , Ci\bacon 
目录 
fizz .\fizz Ci\bacon\fizz 
网 spam.txt .\fizz\spam.txt Ci\bacon\fizz\spam.txt 
spam.txt .\spam.txt Ci\bacon\spam.txt 
eggs ~“\eggs Ceggs 
L spam.txt “\eggs\spam.txt Ci\eggs\spam.txt 
spam.txt ~\spam.txt Ci\spam.txt 


8-2 在 工作 目录 Ci\bacon 中 的 文件 夹 和 文件 的 相对 路 径 





相对 路 径 开 始 处 的 \ 是 可 选 的 。 例 如 ，.\spam.txt 和 spam.txt 指 的 是 同一 个 文件 。 


8.1.4 用 os.makedirs() 创 建新 文件 夹 
程序 可 以 用 os.makedirsO 函 数 创建 新 文件 夹 (目录 )。 在 交互 式 环境 中 输入 以 下 
代码 : 


>>> import os 
>>> os.makedirs('C:\\delicious\\walnut\\waffles') 


这 不 仅 将 创建 C:\delicious 文件 来， 也 会 在 C:delicious 下 创建 walnut 文件 夹 ， 
并 在 Ci\delicious\walnut 中 创建 waffles 文件 夹 。 也 就 是 说 ，os.makedirs() 将 创建 所 有 
必要 的 中 间 文 件 夹 ， 目 的 是 确保 完整 路 径 名 存在 。 图 8-3 展示 了 这 个 文件 夹 的 层次 
结构 。 

































































GN 


上 delicious 


| walnut 
i. waffles 


8-3 os.makedirsCC:NdeliciousNwalnutNwaffles) 的 结果 


8.1.5 os.path 模块 
os.path 模块 包含 了 许多 与 文件 名 和 文件 路 径 相 关 的 有 用 函数 。 例 如 ， 你 已 经 使 
了 os.path.join0) 来 构建 所 有 操作 系统 上 都 有 效 的 路 径 。 因 为 os.path 是 os 模块 中 的 
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模块 ， 所 以 只 要 执行 import os 就 可 以 导入 它 。 如 果 你 的 程序 需要 处 理 文件 、 文 件 夹 
或 文件 路 径 ， 就 可 以 参考 本 节 中 这 些 简短 的 例子 。os.path 模块 的 完整 文档 在 Python 
网 站 上 : http://docs.python.org/3/library/os.path.html。 











本 章 后 面 的 大 多 数 例 子 都 需要 os 模块 ,所 以 要 记得 在 每 个 脚本 开始 处 导入 它 ， 或 在 
重新 启动 IDLE 时 导入 它 。 否 则 ， 就 会 遇 到 错误 消息 NameError: name 'os'is not defined。 





8.1.6 ”处 理 绝对 路 径 和 相对 路 径 














一 个 相对 路 径 的 绝对 路 径 ， 以 及 检查 给 定 的 


| 








os.path 模块 提供 了 一 些 函 数 ， 返 
路 径 是 否 为 绝对 路 径 。 

e。 调用 os.path.abspath(path) 将 返 
换 为 绝对 路 径 的 简便 方法 。 
。 调用 os.path.isabs(pathb)， 如 果 参 数 是 一 个 绝对 路 径 ， 就 返回 True， 如 果 参 数 是 
一 个 相对 路 径 ， 就 返回 False。 

。 调用 os.path.relpath(path, starb 将 返回 从 start 路 径 到 path 的 相对 路 径 的 字符 串 。 

如 果 没 有 提供 start， 就 使 用 当前 工作 目录 作为 开始 路 径 。 
企 交 互 式 环境 中 尝试 以 下 函数 : 

>>> os.path.abspath('.') 

'C:\\Python34’ 

>>> os.path.abspath('.\\Scripts') 

'C:\\Python34\\Scripts’ 

>>> os.path.isabs('.') 

False 


>>> os.path.isabs(os.path.abspath('.')) 
True 
































参数 的 绝对 路 径 的 字符 串 。 这 是 将 相对 路 径 转 























































































































因为 在 os.path.abspathO 调 用 时 ， 当 前 目录 是 C:\Python34， 所 以 “点 ”文件 夹 指 
的 是 绝对 路 径 'C:NPython34'。 


因为 在 你 的 系统 上 ， 文 件 和 文件 夹 可 能 与 我 的 不 同 ， 所 以 你 不 能 完全 遵照 本 章 
中 的 每 一 个 例子 。 但 还 是 请 尝试 用 你 的 计算 机 上 存在 的 文件 夹 来 完成 例子 。 


























在 交互 式 环境 中 ， 输 入 以 下 对 os.path.relpathO 的 调用 : 


>>> os.path.relpath('C:\\Windows', 'C:\\') 

'Windows' 

>>> os.path.relpath('C:\\Windows', 'C:\\spam\\eggs') 
.i\\..\\Windows’ 

>>> 0S.getcwd () 

“C:\\Python34， 


调用 os.path.dirname(patb) 将 返回 一 个 字符 串 , 它 包 含 path 参数 中 最 后 一 个 斜 杠 
之 前 的 所 有 内 容 。 调 用 os.path.basename(path) 将 返回 一 个 字符 串 ， 它 包含 path 参数 
中 最 后 一 个 斜 杠 之 后 的 所 有 内 容 。 一 个 路 径 的 目录 名 称 和 基本 名 称 如 图 8-4 所 示 。 
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C:\Windows\System32\calc.exe 
L || | 
目录 名 称 基本 名 称 


图 8-4 基本 名 称 跟 在 路 径 中 最 后 一 个 针 杠 后 ， 它 和 文件 名 一 样 ， 
目录 名 称 是 最 后 一 个 斜 杠 之 前 的 所 有 内 容 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> path = 'C:\\Windows\\System32\\calc.exe' 
>>> 0S.path.basename (path) 

"Calc.exe' 

>>> os.path.dirname(path) 
'C:\\Windows\\System32'" 


如 果 同 时 需要 一 个 路 径 的 目录 名 称 和 基本 名 称 ， 就 可 以 调用 os.path.split0)， 获 
得 这 两 个 字符 串 的 元 组 ， 像 这 样 : 


>>> calcFilePath = 'C:\\Windows\\System32\\calc.exe’ 
>>> os.path.split(calcFilePath) 
('C:\\Windows\\System32', 'calc.exe') 


请 注意 ， 可 以 调用 os.path.dirname0 和 os.path.basename0,， 将 它们 的 返回 值 放 在 
一 个 元 组 中 ， 从 而 得 到 同样 的 元 组 。 


>>> (0s.path.dirname(calcFilePath), os.path.basename(calcFilePath)) 
('C:\\Windows\\System32', 'calc.exe') 


但 如 果 需 要 两 个 值 ，os.path.splitO 是 很 好 的 快捷 方式 。 

同时 也 请 注意 ,os.path.split0 不 会 接受 一 个 文件 路 径 并 返回 每 个 文件 夹 的 字符 串 的 
列表 。 如 果 需 要 这 样 ， 请 使 用 split0 字 符 串 方法 ， 并 根据 os.path.sep 中 的 字符 串 进行 分 
割 。 回 忆 一 下 , 根据 程序 运行 的 计算 机 , os.path.sep 变量 设置 为 正确 的 文件 夹 分 割 斜 杠 。 

例如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> calcFilePath.split(os.path.sep) 
['C:', 'Windows', 'System32', 'calc.exe'] 


在 OSX 和 Linux 系统 上 ， 返 回 的 列表 头 上 有 一 个 空 字 符 串 : 


>>> '/usr/bin'.split(os.path.sep) 
USD 上 


split0 字 符 串 方法 将 返回 一 个 列表 ， 包 含 该 路 径 的 所 有 部 分 。 如 果 向 它 传递 
os.path.sep， 就 能 在 所 有 操作 系统 上 工作 。 
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8.1.7 ”查看 文件 大 小 和 文件 夹 内 容 




















有 旦 有 办 法 处 理 文件 路 径 ， 就 可 以 开始 搜集 特定 文件 和 文件 夹 的 信息 。os.path 模 
块 提 供 了 一 些 函数 ， 用 于 查看 文件 的 字 节 数 以 及 给 定 文 件 夹 中 的 文件 和 子 文件 夹 。 
。 调用 os.path.getsize(path) 将 返回 path 参数 中 文件 的 字 节 数 。 




















上 
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>>> OS. 























调用 os.listdir(path) 将 返回 文件 





























(请 注意 ， 这 个 函数 在 os 模块 ! 














下 面 是 我 在 交互 式 环境 上 

















776192 


>>> 0S 


-SNip-- 


‘xwtpdui.dll', 'xwtpw32.d1ll', 'zh-CN', 








使 | 











] os.path.getsize() 和 




















尝试 这 











， 而 不 是 os.path )。 
之 些 函数 的 结果 ， 


path.getsize('C:\\Windows\\System32\\calc.exe') 


.listdir('C:\\Windows\\System32') 
[ 0409'，'12520437.cpx'，'12520850.cpx'， 


'5U877.ax', 'aaclient.dll', 


‘zh-HK', 'zh-TW', 'zipfldr.d11'] 





名 字符 串 的 列表 ， 包 含 path 参数 中 的 每 个 文件 





可 以 看 到 ， 我 的 计算 机 上 的 calc.exe 程序 是 776192 字 节 。 在 我 的 C:\Windows\ 
system32 下 有 许多 文件 。 如 果 想 知道 这 个 目录 下 所 有 文件 的 总 字 节 数 ， 就 
































>>> totalSize = 0 
>>> for filename in 0S.1istdir('C:\\Windows\\System32 ' ) : 


>>> print(totalSize) 
1117846456 


每 个 文件 的 字 节 数 。 请 注 ; 
文件 夹 名 称 和 当前 的 文件 
历 所 有 文件 后 ， 我 打印 出 totalSize， 看 看 C:\Windows\System32 文件 


当 循 环 遍 历 C:\Windows\System32 文件 夹 中 的 每 个 文件 时 , totalSize 变量 依次 增加 


os.listdir()。 


totalSize = totalSize + os.path.getsize(os.path.join('C:\\Windows\\System32' 



























































8.1.8 ”检查 路 径 有 效 性 


如 
供 了 一 些 函 数 ， 用 于 检测 给 




















如 果 path 参数 所 指 的 文 从 
否则 返回 False。 























则 返回 False。 








否则 返回 False。 














下 面 是 我 在 交互 式 环境 中 党 














如 果 path 参数 存在 ， 并 且 是 一 个 文件 ， 调 用 os.path.isfile(path) 将 返回 





试 这 


>>> os.path.exists('C:\\Windows') 


True 














可 以 同时 


， filename)) 













































































如 果 path 参数 存在 ， 并 且 是 一 个 文件 来， 调用 os.path.isdir(patb) 将 返回 





函数 的 结果 : 


>>> 0S.path.exists('C:\\Some_made_up_folder ') 


False 


>>> os.path.isdir('C:\\Windows\\System32') 


True 


>>> os.path.isfile('C:\\Windows\\System32') 


False 


>>> os.path.isdir('C:\\Windows\\System32\\calc.exe') 








FE 意 ， 我 在 调用 os.path.getsize0 时 ， 使 用 了 os.path.join0 来 连接 
名 。os.path.getsize0 返 回 的 整数 添加 到 totalSize 中 。 在 循环 遍 
夹 的 总 字 节 数 。 


果 你 提供 的 路 径 不 存在 ， 许 多 Python 函数 就 会 衣 溃 并 报错 。os.path 模块 提 
定 的 路 径 是 否 存 在 ， 以 及 它 是 文件 还 是 文件 夹 。 
F 或 文件 夹 存在 ,调用 os.path.exists(path) 将 返回 





True, 


True， 奉 





True, 
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False 
>>> os.path.isfile('C:\\Windows\\System32\\calc.exe') 
True 


利用 os.path.existsO) 函 数 ， 可 以 确定 DVD 或 内 存盘 当前 是 否 连 在 计算 机 上 。 例 
如 ， 如 果 在 Windows 计算 机 上 ， 我 想 用 卷 名 D:\ 检 查 一 个 内 存盘 ， 可 以 这 样 做 ; 


>>> os.path.exists('D:\\') 
False 


不 好 ! 看 起 来 我 忘记 插入 内 存盘 了 。 












































8.2 ”文件 读 写 过 程 


在 熟悉 了 处 理 文件 夹 和 相对 路 径 后 ， 你 就 可 以 指定 文件 的 位 置 ， 进 行 读 写 。 
来 几 节 介绍 的 函数 适用 于 纯 文本 文件 。“ 纯 文本 文件 ”只 包含 基本 文本 字符 ,不 包含 
体 、 大 小 和 颜色 信息 。 带 有 .txt 扩展 名 的 文本 文件 ， 以 及 带 有 .py 扩展 名 的 Python 网 
文件 ， 都 是 纯 文本 文件 的 例子 。 它 们 可 以 被 Windows 的 Notepad 或 OS X 的 TextEdit 
必用 打开 。 st 将 它们 作为 普通 的 字符 串 值 。 

“二 进 制 文件 ”是 所 有 其 他 文件 类 型 ,诸如 字 处 理 文档 、PDF、 图 像 、 电 子 表格 
和 可 执行 程序 。 如 果 用 Notepad 或 TextEdit 打开 一 个 二 进 制 文件 ， 它 看 起 来 就 像 乱 
码 ， 如 图 8-5 所 示 。 


cake - Notepad 呈 加 各 
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8-5 在 Notepad 中 打开 Windows 的 calc.exe 程序 


既然 每 种 个 同 关 型 的 二 进 制 文件 ， 都 必须 用 它 自己 的 方式 来 处 理 ， 本 书 就 不 会 
探讨 直接 读 写 二 进 制 文 件 。 好 在 ， 许 多 模块 让 二 进 制 文件 的 处 理 变 得 更 容易 。 在 本 
章 稍 后 ， 你 将 探索 其 中 一 个 模块 : shelve。 

在 Python 中 ， 读 写 文 件 有 3 个 步骤 : 
























































1. 调用 open0 函 数 ， 返 回 一 个 File 对 象 。 
2. 调用 File 对 象 的 read0 或 write0 方 法 。 
3. 调用 File 对 象 的 close0 方 法 ， 关 闭 该 文件 。 
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8.2.1 用 open() 函 数 打 开 文 件 


8.2.2 


要 月 
的 文件 。 这 既 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。open(O 函 数 返 巨 
有 Notepad 或 TextEdit 创建 一 个 文本 文件 ， 名 为 hello.txt。 
将 它 保存 在 你 的 用 户 文件 夹 ! 


尝试 一 下 ， 先 月 





有 openO) 函 数 打 开 一 个 文 从 














Hello world! 作 为 该 文本 文件 的 内 容 ， 




















Windows， 在 交互 式 环境 上 














FF ， 就 要 向 它 传递 一 个 字符 串 路 径 ， 表 明 希 志 





打开 














一 个 File 对 象 。 
输入 




















输入 以 下 代码 : 


>>> helloFile = open('C:\\Users\\your_home_ folder\\hello.txt') 





















































如 果 使 用 OS X， 在 交互 式 环 境 ， 
>>> helloFile 
请 确保 用 你 自己 的 计算 机 





















































输入 以 下 代码 : 


= open('/Users/your_home_folder/hello.txt') 











。 然 后 ， 如 果 使 





户 名 取代 your_home_folder。 例 如 ， 我 的 用 户 名 是 


asweigart， 所 以 我 在 windows 下 输入 'C:NUsers\asweigart\hello.txt'。 


这 些 命令 都 ; 
以 读 模式 打开 时 , Python 只 让 你 从 文件 中 读 取 数据 , 你 不 能 以 人 
打开 文件 时 ， 读 模式 是 默认 的 模式 。 但 如 果 你 不 希望 依赖 于 Python 的 默 
作为 第 二 个 参数 。 所 以 
open('/Users/asweigart/hello.txt"”) 做 的 事情 一 样 。 





在 Python 上 
认 值 ， 也 可 以 明确 
open(VUsers/asweigarthello.txt,，rD 和 















































指明 该 模式 ， 向 








调用 open0) 将 i 
Python 中 另 一 种 类 型 的 值 , 就 像 你 已 


对 象 保存 在 helloFile 变量 ' 





返回 一 个 File 对 象 。File 对 象 代表 计生 








各 以 读 取 纯 文 本 文件 的 模式 打开 文件 ， 或 简称 为 “ 读 模式 ”。 当 文件 





上 








openO 传 入 字符 串 T， 




















熟悉 的 列表 和 字典 。 在 前 面 














helloFile 变量 中 的 File 对 象 的 方法 。 





读 取 文件 内 容 


既然 有 了 一 个 File 对 象 ， 就 可 以 必 
内 容 读 取 为 一 个 字符 串 值 ， 就 使 
helloFile 中 的 hello.txt File 对 象 。 在 交互 式 环 境 ， 
































。 现 在 ， 


> 














>>> helloContent = helloFile.read() 
>>> helloContent 


'Hello world!' 











输入 以 下 代码 


E 何 方式 写 入 或 修改 它 。 


你 需要 读 取 或 写 入 该 文件 ， 就 可 以 调用 

















机 中 的 一 个 文件 ， 它 只 是 





的 例子 中 , 你 将 File 











F 始 从 它 读 取 内 容 。 如 果 你 希望 将 整个 文件 的 
j File 对 象 的 read0 方 法 。 让 我 们 继续 使 用 保存 在 














如 果 你 将 文件 的 内 容 看 成 是 单个 大 字符 串 ,read() 方 法 就 返回 保存 在 该 文件 中 的 


\ 


这 个 字 


或 者 ， 可 以 使 月 


多 


们 


串 。 





























每 个 字 





readlines0) 方 法 ， 从 该 文件 取得 一 个 字符 
符 串 就 是 文本 中 的 每 一 行 。 例 如 ， 在 hello.txt 文件 相同 








名 为 sonnet29.txt 的 文件 ， 并 在 其 中 写 入 以 下 文本 ; 


When, in disgrace with fortune and men's eyes， 
I all alone beweep my outcast state, 








的 列表 。 列 表 中 的 
9 目录 下 ， 创 建 一 个 
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And trouble deaf heaven With my bootless cries， 
And look upon myself and curse my fate, 


确保 用 换行 分 开 这 4 行 。 然 后 在 交互 式 环境 


>>> SonnetFile = open('sonnet29.txt') 

>>> sonnetFile.readlines() 

[When, in disgrace with fortune and men's eyes,\n', ' I all alone beweep my 
outcast state,\n', And trouble deaf heaven with my bootless cries,\n', And 
look upon myself and curse my fate,'] 


请 注意 ， 每 个 字符 串 值 都 以 一 个 换行 字符 Wn 结束 。 除 了 文件 的 最 后 一 行 。 与 单 
个 大 字符 串 相 比 ， 字 符 串 的 列表 通常 更 容易 处 理 。 




















输入 以 下 代码 : 
















































































8.2.3” 写 入 文件 
Python 允许 你 将 内 容 写 入 文件 ， 方 式 与 print0 函 数 将 字符 串 “ 写 ”到 屏幕 上 类 
似 。 但是， 如 果 打 开 文 件 时 用 读 模 式 ， 就 不 能 写 入 文件 。 你 需要 以 “ 写 入 纯 文本 模 
式 ” 或 “添加 纯 文本 模式 ”打开 该 文件 ， 或 简称 为 “ 写 模 式 ” 和 “添加 模式 ”。 
写 模 式 将 覆 写 原 有 的 文件 ， 从 头 开 始 ， 就 像 你 用 一 个 新 值 覆 写 一 个 变量 的 值 。 
将 'w' 作 为 第 二 个 参数 传递 给 open0， 以 写 模式 打开 该 文件 。 不 同 的 是 ， 添 加 模式 将 
在 已 有 文件 的 末尾 添加 文本 。 你 可 以 认为 这 类 似 向 一 个 变量 中 的 列表 添加 内 容 ， 而 
不 是 完全 履 写 该 变量 。 将 a 作 为 第 二 个 参数 传递 给 open()， 以 添加 模式 打开 该 文件 。 
如 果 传 递 给 open0 的 文件 名 不 存在 ， 写 模式 和 添加 模式 都 会 创建 一 个 新 的 空 文 
件 。 在 读 取 或 写 入 文件 后 ， 调 用 close0 方 法 ， 然 后 才能 再 次 打开 该 文件 。 
证 我 们 整合 这 些 概念 。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> baconFile = open('bacon.txt', 'w') 
>>> baconFile.write('Hello world!\n') 



























































































































































>>> baconFile.close() 
>>> baconFile = open('bacon.txt', 'a') 
>>> baconFile.write('Bacon is not a vegetable.') 


>>> baconFile.close() 

>>> baconFile = open('bacon.txt') 
>>> Content = baconFile.read() 
>>> baconFile.close() 

>>> print(content) 

Hello world! 

Bacon is not a vegetable. 


首先 ， 我 们 以 写 模式 打开 bacon.txt。 因 为 还 没有 bacon.txt，Python 就 创建 了 一 
个 。 在 打开 的 文件 上 调用 write0， 并 向 write0 传 入 字符 串 参 数 'Hello world! \n'， 将 
字符 串 写 入 文件 ， 并 返回 写 入 的 字符 个 数 ， 包 括 换行 符 。 然 后 关闭 该 文件 。 
为 了 将 文本 添加 到 文件 已 有 的 内 容 ， 而 不 是 取代 我 们 刚刚 写 入 的 字符 串 ， 我 们 
就 以 添加 模式 打开 该 文件 。 向 该 文件 号 入 Bacon is not a vegetable…， 并 关闭 它 。 最后， 
为 了 将 文件 的 内 容 打 印 到 屏幕 上 ， 我 们 以 默认 的 读 模式 打开 该 文件 ， 调 用 read0， 
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将 得 到 的 内 容 保存 在 content 中 ， 关 闭 该 文件 ， 并 打印 content。 
请 注意 ，write0 方 法 不 会 像 printO 函 数 那样 ， 在 字符 串 的 末尾 自动 添加 换行 字 
符 。 必 须 自己 添加 该 字符 。 


























8.3 ”用 shelve 模块 保存 变量 


利用 shelve 模块 , 你 可 以 将 Python 程序 中 的 变量 保存 到 二 进 制 的 shelf 文件 中 。 
这 样 ， 程 序 就 可 以 从 硬盘 中 恢复 变量 的 数据 。shelve 模块 让 你 在 程序 中 添加 “保存 ” 
和 “打开 ”功能 。 例 如 ， 如 果 运 行 一 个 程序 ， 并 输入 了 一 些 配 置 设 置 ， 就 可 以 将 这 
些 设 置 保存 到 一 个 shelf 文件 ， 然 后 让 程序 下 一 次 运行 时 加 载 它们 。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import shelve 

>>> shelfFile = shelve.open('mydata') 
>>> cats = ['Zophie', 'Pooka', 'Simon'] 
>>> shelfFile['cats'] = cats 

>>> shelfFile.close() 


要 利用 shelve 模块 读 写 数据 ， 首 先 要 导入 它 。 调 用 函数 shelve.open0 并 传 入 一 个 文件 

名 ， 然 后 将 返回 的 值 保存 在 一 个 变量 中 。 可 以 对 这 个 变量 的 shelf 值 进行 修改 ， 就 像 它 是 

个 字典 一 样 。 当 你 完成 时 , 在 这 个 值 上 调用 close0。 这里, 我 们 的 shelf 值 保 存在 shelfFile 
中 。 我 们 创建 了 一 个 列表 cats， 并 写 下 shelfFile['cats'] =cats， 将 该 列表 保存 在 shelfFile : 
作为 键 cats 关 联 的 值 〈 就 像 在 字典 中 一 样 )。 然 后 我 们 在 shelfFile 上 调用 close0。 
在 Windows 上 运行 前 面 的 代码 ， 你 会 看 到 在 当前 工作 目录 下 有 3 个 新 文件 : 
mydata.bak、mydata.dat 和 mydata.dir。 在 OS X 上 ， 只 会 创建 一 个 mydata.db 文件 。 
这 些 二 进 制 文件 包含 了 存储 在 shelf 中 的 数据 。 这 些 二 进 制 文件 的 格式 并 不 重 
要 ， 你 只 需要 知道 shelve 模块 做 了 什么 ， 而 不 必 知 道 它 是 怎么 做 的 。 该 模块 让 你 不 
操心 如 何 将 程序 的 数据 保存 到 文件 中 。 
你 的 程序 稍 后 可 以 使 用 shelve 模块 ,重新 打开 这 些 文件 并 取出 数据 。shelf 值 不 
必用 读 模 式 或 写 模式 打开 ， 因 为 它们 在 打开 后 ， 既 能 读 又 能 写 。 在 交互 式 环 境 中 输 
入 以 下 代码 : 


>>> shelfFile = shelve.open('mydata') 
>>> type(shelfFile) 

<class 'shelve.DbfilenameShelf'> 

>>> shelfFile['cats'] 

['Zophie', 'Pooka', 'Simon'] 

>>> shelfFile.close() 


这 里 , 我 们 打开 了 shelf 文件 , 检查 我 们 的 数据 是 否 正确 存储 。 输入 shelfFile['cats] 
将 返回 我 们 前 面 保存 的 同一 个 列表 ， 所 以 我 们 就 知道 该 列表 得 到 了 正确 存储 ， 然 后 
我 们 调用 close0。 

就 像 字典 一 样 ，shelf 值 有 keys0 和 values0) 方 法 ， 返 回 shelf 中 键 和 值 的 类 似 列 
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表 的 值 。 因 为 这 些 方法 返回 类 似 列表 的 值 ， 而 不 是 真正 的 列表 ， 所 以 应 该 将 它们 传 
递 给 listO0 函 数 ， 取 得 列表 的 形式 。 在 交互 式 环境 中 输入 以 下 代码 : 





























>>> shelfFile = shelve.open('mydata') 
>>> list(shelfFile.keys()) 


['cats'] 
>>> list(shelfFile.values()) 
[['Zophie', 'Pooka', 'Simon']] 


>>> shelfFile.close() 
创建 文件 时 ， 如 果 你 需要 在 Notepad 或 TextEdit 这 样 的 文本 编辑 器 中 读 取 它们 ， 
纯 文 本 就 非常 有 用 。 但是， 如果 想 要 保存 Python 程序 中 的 数据 , 那 就 使 用 shelve 模块 。 













































































8.4 ”用 pprint.pformat() 函 数 保存 变量 








可 忆 一 下 5.2 节 “ 漂 亮 打印 ”中 ，pprint.pprintO 函 数 将 列表 或 字典 中 的 内 容 “ 漂 
亮 打印 ”到 屏幕 ， 而 pprintpformatO 函 数 将 返回 同样 的 文本 字符 串 ， 但 不 是 打印 它 。 
这 个 字符 串 不 仅 是 易于 阅读 的 格式 ， 同 时 也 是 语法 上 正确 的 Python 代码 。 假 定 你 有 

个 字典 ， 保 存在 一 个 变量 中 ， 你 希望 保存 这 个 变量 和 它 的 内 容 ， 以 便 将 来 使 用 。 
pprint.pformatO 函 数 将 提供 一 个 字符 串 ， 你 可 以 将 它 写 入 .py 文件 。 该 文件 将 成 为 你 自 
己 的 模块 ， 如 果 你 需要 使 用 存储 在 其 中 的 变量 ， 就 可 以 导入 它 。 

例如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 

>>> import pprint 
>>> cats = [{'name': 'Zophie', 'desc': 'chubby'}, {'name': 'Pooka', 'desc': 'fluffy'}] 
>>> pprint.pformat(cats) 
"[{'desc': 'chubby', 'name': 'Zophie'}, {'desc': 'fluffy', 'name': 'Pooka’'}]" 


>>> file0bj = open('myCats.py', 'w') 
>>> file0bj.write('cats = ' + pprint.pformat(cats) + '\n') 






























































































































































>>> file0bj.close() 


这 里 , 我 们 导入 了 pprint, 以 便 能 使 用 pprint.pformat0。 我 们 有 一 个 字典 的 列表 ， 
保存 在 变量 cats 中 。 为 了 让 cats 中 的 列表 在 关闭 交互 式 环 境 后 仍然 可 用 ， 我 们 利用 
pprint.pformatO， 将 它 返 回 为 一 个 字符 串 。 当 我 们 有 了 cats 中 数据 的 字符 串 形式 ， 
就 很 容易 将 该 字符 串 写 入 一 个 文件 ， 我 们 将 它 命 名 为 myCats.py。 

import 语句 导入 的 模块 本 身 就 是 Python 脚本 。 如 果 来 自 pprint.pformat() 的 字符 
串 保存 为 一 个 .py 文件 ， 该 文件 就 是 一 个 可 以 导入 的 模块 ， 像 其 他 模块 一 样 。 

由 于 Python 脚本 本 身 也 是 带 有 .py 文件 扩展 名 的 文本 文件 , 所 以 你 的 Python 程 
序 甚至 可 以 生成 其 他 Python 程序 。 然 后 可 以 将 这 些 文件 导入 到 脚本 中 。 


>>> Import myCats 

>>> myCats.cats 

[{'name': 'Zophie', 'desc': 'chubby'}, {'name': 'Pooka', 'desc': 'fluffy'}] 
>>> myCats.cats[0] 

{'name': 'Zophie', 'desc': 'chubby'} 

>>> myCats.cats[0]['name'] 

'Zophie' 
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创建 一 个 .py 文件 (而 不 是 利 








] shelve 模块 保存 变量 ) 的 好 处 在 于 ， 








因为 它 是 



























































一 个 文本 文件 ， 所 以 任何 人 都 可 以 用 一 个 简 六 
容 。 但 是 ， 对 于 大 多 数 应 用 ， 利 
最 佳 方式 。 只 有 基本 数据 类 型 ， 诸 如 整 型 、 浮 点 型 、 








的 文本 编辑 器 读 取 和 修改 该 文件 








F 的 内 














j shelve 模块 来 保存 数据 ， 是 将 变量 保存 到 文件 的 











字符 串 、 列 表 和 字典 ， 可 以 作 








为 简单 文本 写 入 一 个 文件 。 例 如 ，File 对 象 就 不 能 够 编码 为 文本 。 


8.5 项目: 生成 随机 的 测验 试卷 文件 


假如 你 是 一 位 地 理 老师 ， 班 ] 














































































































上 有 35 名 学 生 ， 你 希望 进行 美国 各 州 首府 的 一 个 
小 测验 。 不 妙 的 是 ， 班 里 有 几 个 坏蛋 ， 你 无 法 确信 学 生 不 会 作 浆 。 你 希望 随机 调整 
问题 的 次 序 ， 这 样 每 份 试卷 都 是 独一无二 的 ， 这 让 任何 人 都 不 能 从 其 他 人 那里 抄袭 
答案 。 当 然 ， 手 工 完 成 这 件 事 又 费时 又 无 聊 。 好 在 ， 你 懂 一 些 Python。 
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下 面 是 程序 所 做 的 寻 








































































































误 答 案 ， 次 序 随 机 。 


openO、write0 和 close()。 


。 创建 35 份 不 同 的 测验 试卷 。 
。 为 每 份 试卷 创建 50 个 多 重 选 择 题 ， 次 序 随机 。 
。 为 每 个 问题 提供 一 个 正确 答案 和 3 个 随机 的 错 
。 将 测验 试卷 写 到 35 个 文本 文件 中 。 
。 将 答案 写 到 35 个 文本 文件 中 。 
这 意味 着 代码 需要 做 下 面 的 事 : 
。 将 州 和 它们 的 首府 保存 在 一 个 字典 中 。 
。 针对 测验 文本 文件 和 答案 文本 文件 ， 调 用 
。 利用 random.shuffle0 随 机 调整 问题 和 多 重 选 项 的 次 序 。 








第 1 步 : 将 测验 数据 保存 在 一 个 字典 中 


第 一 步 是 创建 一 个 脚本 框架 ， 并 填 入 测验 数 














Generator.py 的 文件 ， 让 它 看 起 来 像 这 样 : 


#! python3 
# randomQuizGenerator.py 
# random order, along with the answer key. 

















© import random 


居 。 创建 一 个 名 为 randomQuiz 


- Creates quizzes with questions and answers in 


# The quiz data. Keys are states and values are their capitals. 


@ capitals = {'Alabama': 'Montgomery', 'Alaska': 'Juneau', 


'Arkansas': 'Little Rock', 'California': 'Sacramento’', ' 
'Connecticut': 'Hartford', 'Delaware': 'Dover', 'Florida': 
"Georgia': 'Atlanta', 'Hawaii': 'Honolulu', 'Idaho': 'Bo 
'Springfield', 'Indiana': 'Indianapolis', 'Iowa': 'Des M 
'Topeka', 'Kentucky': 'Frankfort', 'Louisiana': 'Baton R 
'Augusta', 'Maryland': 'Annapolis', 'Massachusetts': 'Bo 
'Lansing', 'Minnesota': 'Saint Paul', 'Mississippi': 'Ja 
"JUefferson City', 'Montana': 'Helena', 'Nebraska': 'Linc 
"Carson City', 'New Hampshire': 'Concord', 'New Jersey': 


'Arizona': 'Phoenix', 

Colorado': 'Denver’' 
'Tallahassee', 

ise', 'I11inois ' : 
oines', "Kansas ' : 
ouge', 'Maine': 
ston', 'Michigan’': 
ckson', 'Missouri': 
oln', 'Nevada': 

'Trenton', 'New 
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Mexico': 'Santa Fe', 'New York': 'Albany', 'North Carolina': 'Raleigh', 
'North Dakota': 'Bismarck', '0hio': 'Columbus', 'Oklahoma': 'Oklahoma City', 
'Oregon': 'Salem', 'Pennsylvania': 'Harrisburg', 'Rhode Island': 'Providence', 
'South Carolina': 'Columbia', 'South Dakota': 'Pierre', 'Tennessee': 
'Nashville', 'Texas': 'Austin', 'Utah': 'Salt Lake City', 'Vermont': 
'Montpelier', 'Virginia': 'Richmond', 'Washington': 'Olympia', 'West 
Virginia': 'Charleston', 'Wisconsin': 'Madison', 'Wyoming': 'Cheyenne'} 
# Generate 35 quiz files. 
®@ for quizNum in range(35): 

# TODO: Create the quiz and answer key files. 

# TODO: Write out the header for the quiz. 

# TODO: Shuffle the order of the states. 


# TODO: Loop through all 50 states, making a question for each. 


因为 这 个 程序 将 随机 安排 问题 和 答案 的 次 序 ， 所 以 需要 导入 random 模块 @， 
以 便利 用 其 中 的 函数 。capitals 变量 @ 含 一 个 字典 ， 以 美国 州 名 作为 键 ， 以 州 首府 作 
为 值 。 因 为 你 希望 创建 35 份 测验 试卷 ， 所 以 实际 生成 测验 试卷 和 答案 文件 的 代码 
(暂时 用 TODO 注释 标注 ) 会 放 在 一 个 for 循环 中 ， 循 环 35 次 目 〈 这 个 数字 可 以 改 
变 ， 生 成 任何 数目 的 测验 试卷 文件 )。 


第 2 步 : 创建 测验 文件 ， 并 打 乱 问题 的 次 序 
现在 是 时 候 填 入 那些 TODO 了 。 
循环 中 的 代码 将 重复 执行 35 次 〈 每 次 生成 一 份 测验 试卷 )， 所 以 在 循环 中 ， 你 
只 需要 考虑 一 份 测验 试卷 。 首 先 你 要 创建 一 个 实际 的 测验 试卷 文件 ， 它 需要 有 唯 
的 文件 名 ， 并 且 有 某 种 标准 的 标题 部 分 ， 留 出 位 置 ， 让 学 生 填 写 姓 名 、 日 期 和 班级 。 
然后 需要 得 到 随机 排列 的 州 的 列表 ， 稍 后 将 用 它 来 创建 测验 试卷 的 问题 和 答案 。 
在 randomQuizGeneratorpy 中 添加 以 下 代码 行 : 
#! python3 


# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 
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--SNip-- 


# Generate 35 quiz files. 
for quizNum in range(35): 
# Create the quiz and answer key files. 
0 quizFile = open('capitalsquiz%s.txt' % (quizNum + 1), 'w') 
@ answerKeyFile = open('capitalsquiz answers%s.txt' % (quizNum + 1), 'w') 


# Write out the header for the quiz. 

© quizFile.write('Name:\n\nDate:\n\nPeriod:\n\n') 
quizFile.write((' ' * 20) + 'State Capitals Quiz (Form %s)' % (quizNum + 1)) 
quizFile.write('\n\n') 


# Shuffle the order of the states. 
states = list(capitals.keys()) 
@ random.shuffle(states) 


# TODO: Loop through all 50 states, making a question for each. 
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第 4 步 : 





























测验 试卷 的 文件 名 将 是 capitalsquiz<N>.txt, 其 中 <N> 是 该 测验 试卷 的 唯一 编号 ， 
来 自 于 quizNum， 即 for 循环 的 计数 器 。 针 对 capitalsquiz<N>.txt 的 答案 将 保存 在 一 
个 文本 文件 中 , 名 为 capitalsquiz_answers<N>.txt。 每 次 执行 循环 , 'capitalsquiz%s.txt' 
和 和 'capitalsquiz_answers9%s.txt' 中 的 占 位 符 %s 都 将 被 (quizNum + 1) 取 代 ， 所 以 第 一 个 
测验 试卷 和 答案 将 是 capitalsquiz1.txt 和 capitalsquiz_answersl.txt。 在 @ 和 @ 的 open() 
函数 调用 将 创建 这 些 文件 ， 以 w' 作 为 第 二 个 参数 ， 以 写 模式 打开 它们 。 

目 处 write0 语 句 创建 了 测验 标题 ， 让 学 生 填 写 。 最 后 ， 利 用 random.shuffle() 函 
数 @， 创 建 了 美国 州 名 的 随机 列表 。 该 函数 重新 随机 排列 传递 给 它 的 列表 中 的 值 。 




































































: 创建 答案 选项 








现在 需要 为 每 个 问题 生成 答案 选项 ， 这 将 是 A 到 D 的 多 重 选择 。 你 需要 创建 
男 一 个 for 循环 ， 该 循环 生成 测验 试卷 的 50 个 问题 的 内 容 。 然 后 里 面 会 供 套 第 三 个 
for 循环 ， 为 每 个 问题 生成 多 重 选项 。 让 你 的 代码 看 起 来 像 这 样 


#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 




































































--SNip-- 


# Loop through all 50 states, making a question for each. 
for questionNum in range(50) : 


# Get right and wrong answers . 

correctAnswer = capitals[states[questionNum]] 
wrongAnswers = list(capitals.values()) 

del wrongAnswers[wrongAnswers.index(correctAnswer)] 
wrongAnswers = random.sample(wrongAnswers, 3) 
answerOptions = WrongAnswers + [correctAnswer] 
random.shuffle(answerOptions) 


9oeoee 


# TODO: Write the question and answer options to the quiz file. 


# TODO: Write the answer key to a file. 


正确 的 答案 很 容易 得 到 ， 它 作为 一 个 值 保存 在 capitals 字典 中 @。 这 个 循环 将 

遍历 打 乱 过 的 states 列表 中 的 州 ， 从 states[0] 到 states[49], 在 capitals 中 找到 每 个 州 ， 
将 该 州 对 应 的 首府 保存 在 correctAnswer 中 。 
可 能 的 错误 答案 列表 需要 一 点 技巧 。 你 可 以 从 capitals 字典 中 复制 所 有 的 值 @， 
删除 正确 的 答案 目 ， 然 后 从 该 列表 中 选择 3 个 随机 的 值 @ 。random.sampleO0 函 数 使 
导 这 种 选择 很 容易 ， 它 的 第 一 个 参数 是 你 希望 选择 的 列表 ， 第 二 个 参数 是 你 希望 选 
尘 的 值 的 个 数 。 完 整 的 答案 选项 列表 是 这 3 个 错误 答案 与 正确 答案 的 组 合 @。 最 后 ， 
答案 需要 随机 排列 @， 这 样 正确 的 答案 就 不 会 总 是 选项 DD。 


将 内 容 写 入 测验 试卷 和 答案 文件 
剩 下 来 就 是 将 问题 写 入 测验 试卷 文件 
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将 答案 写 入 答案 文件 。 让 你 的 代码 看 起 
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IT 
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来 像 这 样 : 


#! python3 


# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


--SNip-- 


# Loop through all 50 states, making a question for each. 
for questionNum in range(50): 


--SNip-- 


# Write the question and the answer options to the quiz file. 
quizFile.write('%s. What is the capital of %s?\n' % (questionNum + 1， 
states[questionNum])) 
0 for i in range(4): 
© quizFile.write(' %s. %s\n' % ('ABCD'[i], answerOptions[i])) 
quizFile.write('\n') 


# Write the answer key to a file. 
© answerKeyFile.write('%s. %s\n' % (questionNum + 1, 'ABCD'I[ 
answerOptions.index(correctAnswer)])) 


quizFile.close() 


answerKeyFile.close() 


一 个 遍历 整数 0 到 3 的 for 循环 ， 将 答案 选项 写 入 answerOptions 列表 @。@ 处 
的 表达 式 'ABCD' 各 将 字符 串 'ABCD' 看 成 是 一 个 数组 ,， 它 在 循环 的 每 次 迭代 中 ,将 分 


别 求 值 为 A'、'B'、'C' 和 'D'。 












































在 最 后 一 行 目 ,表达 式 answerOptions.index(correctAnswer) 将 在 随机 排序 的 答案 
选项 中 ,找到 正确 答案 的 整数 下 标 , 并 且 'ABCD'[answerOptions.index(correctAnswer)] 

















将 求 值 为 正确 答案 的 字母 ， 写 入 到 答案 文人 





中 。 


iT 


























在 运行 该 程序 后 ， 下 面 就 是 capitalsquizl.txt 文件 看 起 来 的 样子 。 但 是 ， 你 的 问 


























题 和 答案 选项 当 























Name : 


Date : 


Period : 


nv 


然 与 这 里 显示 的 可 能 会 不 同 。 这 取决 于 random.shuffle0 调 用 的 结果 : 


State Capitals Quiz (Form 1) 


1. What is the capital of West Virginia? 


A. Hartford 
B. Santa Fe 
Cc. Harrisburg 
D. Charleston 


2. What is the capital of Colorado? 


A. Raleigh 
B. Harrisburg 
C. Denver 
D. Lincoln 


--SNip-- 

















对 应 的 capitalsquiz_answers1.txt 文本 文件 看 起 来 像 这 样 : 
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8.6 项目 : 多 重 艾 贴 极 


假定 你 有 一 个 无 聊 的 任务 ， 要 填充 一 个 网 页 或 软件 中 的 许多 表格 ， 其 中 包含 一 
些 文本 字段 。 剪 贴 板 让 你 不 必 一 次 又 一 次 输入 同样 的 文本 ， 但 剪贴 板 上 一 次 只 有 一 
个 内 容 。 如 果 你 有 几 段 不 同 的 文本 需要 拷贝 粘贴 ， 就 不 得 不 一 次 又 一 次 的 标记 和 找 
贝 几 个 同样 的 内 容 。 

可 以 编写 一 个 Python 程序 ， 追 踪 几 段 文 本 。 这 个 “多 重 剪贴 板 ” 将 被 命名 为 
mcb.pyw (因为 “mcb” 比 输入 “multiclipboard” 更 简单 )。.pyw 扩展 名 意味 着 Python 
运行 该 程序 时 ， 不 会 显示 终端 窗口 〈 详 细 内 容 请 参考 附录 B )。 

该 程序 将 利用 一 个 关键 字 保 存 每 段 剪 贴 板 文本 。 例 如 ， 当 运行 py mcb.pyw save 
spam， 剪 贴 板 中 当前 的 内 容 就 用 关键 字 spam 保存 。 通 过 运行 py mcb.pyw spam， 这 
段 文本 稍 后 将 重新 加 载 到 剪贴 板 中 。 如 果 用 户 忘 记 了 都 有 哪些 关键 字 ， 他 们 可 以 运 
行 py mcb.pyw list， 将 所 有 关键 字 的 列表 复制 到 剪贴 板 中 。 

下 面 是 程序 要 做 的 事 : 

。 针对 要 检查 的 关键 字 ， 提 供 命令 行 参数 。 
。 如 果 参 数 是 save， 那 么 将 剪贴 板 的 内 容 保存 到 关键 字 。 
。 如 果 参 数 是 list， 就 将 所 有 的 关键 字 拷 贝 到 剪贴 板 。 
。 否则 ， 就 将 关键 词 对 应 的 文本 拷贝 到 剪贴 板 。 
这 意味 着 代码 需要 做 下 列 事情 : 
。 从 sys.argv 读 取 命 令 行 参数 。 
。 读 写 剪贴 板 。 
。 保存 并 加 载 shelf 文件 。 

如 果 你 使 用 Windows， 可 以 创建 一 个 名 为 mcb.bat 的 批 处 理 文件 ， 很 容易 地 通 

过 “Run...” 窗 口 运行 这 个 脚本 。 该 批 处 理 文 件 包 含 如 下 内 容 : 


@pyw.exe C:\Python34\mcb.pyw %* 


第 1 步 : 注释 和 shelf 设置 
我 们 从 一 个 脚本 框架 开始 ， 其 中 包含 一 些 注释 和 基本 设置 。 让 你 的 代码 看 起 来 
像 这 样 : 
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#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 

© # Usage: py.exe mcb.pyw save <keyword> - Saves clipboard to keyword. 
# py.exe mcb.pyw <keyword> - Loads keyword to clipboard. 
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放 py.exe mcb.pyw list - Loads all keywords to clipboard 
@ import shelve，pyperclip，sys 
@ mcbshelf = shelve.open('mcb') 

# TODO: Save clipboard content. 

# TODO: List keywords and load content. 

mcbShelf.close() 

将 一 般 用 法 信息 放 在 文件 顶部 的 注释 中 ， 这 是 常见 的 做 法 @。 如 果 忘 了 如 何 运 
行 这 个 脚本 ， 就 可 以 看 看 这 些 注释 ， 帮 助 回忆 起 来 。 然 后 导入 模块 @。 找 贝 和 粘贴 
需要 pyperclip 模块 ， 读 取 命 令 行 参数 需要 sys 模块 。shelve 模块 也 需要 准备 好 。 

j 户 希望 保存 一 段 剪贴 板 文本 时 ， 你 需要 将 它 保 在 到 一 个 shelf 文件 中 。 然 后 ， 
户 希 望 将 文本 拷贝 回 剪贴 板 时 ， 你 需要 打开 shelf 文件 ， 将 它 重 新 加 载 到 程序 
这 个 shlef 文件 命名 时 带 有 前 级 mcb@。 
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第 2 步 : 用 一 个 关键 字 保存 剪贴 板 内 容 
根据 用 户 希 望 保存 文本 到 一 个 关键 字 ， 或 加 载 文本 到 剪贴 板 ， 或 列 出 己 有 的 关键 
字 ， 该 程序 做 的 事情 不 一 样 。 让 我 们 来 处 理 第 一 种 情况 。 让 你 的 代码 看 起 来 像 这 样 : 
#L python3 


# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--SNip-- 






























































# Save clipboard content. 
© if len(sys.argv) == 3 and sys.argv[1].lower() == 'save': 
© mcbShelf[sys.argv[2]] = pyperclip.paste() 

elif len(sys.argv) == 2: 
© # TODO: List keywords and load content. 


mcbShelf.close() 

如 果 第 一 个 命令 行 参数 〈 它 总 是 在 sys.argv 列表 的 下 标 1 处 ) 是 字符 串 'Save' @， 
第 二 个 命令 行 参数 就 是 保存 剪贴 板 当前 内 容 的 关键 字 。 关 键 字 将 用 做 mcbShelf 中 的 
键 ， 值 就 是 当前 剪贴 板 上 的 文本 @。 

如 果 只 有 一 个 命令 行 参 数 ， 就 假定 它 要 么 是 ist， 要 么 是 需要 加 载 到 剪贴 板 的 
关键 字 。 稍 后 你 将 实现 这 些 代码 。 现 在 只 是 放 上 一 条 TODO 注释 @。 



























































第 3 步 : 列 出 关键 字 和 加 载 关键 字 的 内 容 
最 后 ， 让 我 们 实现 剩 下 的 两 种 情况 。 用 户 希 望 从 关键 字 加 载 剪 贴 板 文本 ， 或 希 
望 列 出 所 有 可 用 的 关键 字 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--SNip-- 
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8.7 


# Save clipboard content. 


if len(sys.argv) == 3 and sys.argv[1].lower() == 'save': 
mcbShelf[sys.argv[2]] = pyperclip.paste() 
全 


elif len(sys.argv) == 


# List keywords and load content . 


Q@e 


if sys.argv[1].1ower() == 'list': 
pyperclip.copy(str(list(mcbShelf.keys()))) 


elif sys.argv[1] in mcbShelf: 
pyperclip.copy(mcbShelf[sys.argv[1]]) 


mcbShelf.close() 











如 果 只 有 一 个 命令 行 参 数 ， 首 先 检查 它 是 不 是 1ist' @ 。 如 果 是 ， 表 示 shelf 键 的 















































列表 的 字符 串 将 被 拷贝 到 剪贴 板 @。 用 户 可 以 将 这 个 列表 拷贝 到 一 个 打开 的 文本 编 














得 器 ， 进 行 查 
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否则 ， 你 可 以 假定 该 命令 行 参数 是 一 个 关键 字 。 如 果 这 个 关键 字 是 shelf 中 的 
一 个 键 ， 就 可 以 将 对 应 的 值 加 载 到 剪贴 板 目 。 





























各 








齐 活 了 ! 加 载 这 个 程序 有 几 个 不 同步 又 ， 这 取决 于 你 的 计算 机 使 用 哪 种 操作 系 





统 。 请 查看 附录 B， 了 解 操 作 系统 的 详情 。 
可 忆 一 下 第 6 章 中 创建 的 口令 保管 箱 程序 ， 它 
口令 需要 更 改 该 程序 的 源 代 码 。 这 不 太 理想 ， 因 为 普 
码 来 更 新 他 们 的 软件 。 而 且 ， 每 次 修改 程序 的 源 代 码 时 ， 就 有 可 能 不 小 心 引入 新 的 
缺陷 。 将 程序 的 数据 保存 在 不 同 的 地 方 ， 而 不 是 在 代码 中 ， 就 可 以 让 别人 更 容易 使 































































































将 口令 保存 在 一 个 字典 中 。 更 新 
普通 用 户 不 太 适 应 通过 更 改 源 代 













































































小 结 


你 的 程序 ， 并 且 更 不 容易 出 错 。 


文件 被 组 织 在 文件 夹 中 (也 称 为 目录 )， 路 径 描述 了 一 个 文件 的 位 置 。 运 行 在 计算 
机 上 的 每 个 程序 都 有 一 个 当前 工作 目录 ， 它 让 你 相对 于 当前 的 位 置 指定 文件 路 径 ， 而 
































非 总 是 需要 完整 路 径 〈 绝 对 路 径 )。os.path 模块 包含 许多 函数 ， 用 于 操作 文件 路 径 。 



































你 的 程序 也 可 以 直接 操作 文本 文件 的 内 容 。openO 函 数 将 打开 这 些 文件 ， 将 它 
们 的 内 容 读 取 为 一 个 大 字符 串 (利用 reae0 方 法 )， 或 读 取 为 字符 串 的 列表 (利用 方 



































本 文件 或 在 原 有 的 文本 文 








法 readlines())。Open0 函 数 可 以 将 文件 以 写 模式 或 添加 模式 打开 ， 分别 创 建新 的 文 





牛 中 添加 内 容 。 














在 前 面 几 章 中 ， 你 利 / 








剪贴 板 在 程序 中 获得 大 量 文本 ， 而 不 是 通过 手工 输入 。 现 














PS 














在 你 可 以 用 程序 直接 读 取 硬 盘 上 的 文件 ， 这 是 一 大 进步 。 因 为 文件 比 剪 贴 板 更 不 易 变 























化 。 在 下 一 章 中 ， 你 将 学 习 如 何 处 理 文件 本 身 ， 包 括 复制 、 删 除 、 重 命名 、 移 动 等 。 





1. 相对 路 径 是 相对 于 什么 ? 
2. 绝对 路 径 从 什么 开始 ? 
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. Os.getcwd() 和 os.chdirO 函 数 做 什么 事 ? 
.和 .. 文 件 夹 是 什么 ? 
在 C:baconveggs\spam.txt 中 ， 哪 一 部 分 是 目录 名 称 ， 哪 一 部 分 是 基本 名 称 ? 
.可 以 传递 给 open0 函 数 的 3 种 “模式 ”参数 是 什么 ? 

如 果 已 有 的 文件 以 写 模式 打开 ， 会 发 生 什么 ? 

read() 和 readlines() 方 法 之 间 的 区 别 是 什么 ? 

shelf 值 与 什么 数据 结构 相似 ? 






























































‘Oo OU 信人 


作为 实践 ， 设 计 并 编写 下 列 程序 。 


8.9.1 扩展 多 重 剪 贴 板 
扩展 本 章 中 的 多 重 剪贴 板 程序 ， 增 加 一 个 delete <keyword> 命 令 行 参 数 ， 它 将 
从 shelf 中 删除 一 个 关键 字 。 然 后 添加 一 个 delete 命令 行 参数 , 它 将 删除 所 有 关键 字 。 


8.9.2 ”疯狂 填词 
创建 一 个 疯狂 填词 (Mad Libs) 程序 ， 它 将 读 入 文本 文件 ， 并 让 用 户 在 该 文本 
文件 中 出 现 ADJECTIVE、NOUN、ADVERB 或 VERB 等 单词 的 地 方 ， 加 上 他 们 自 
己 的 文本 。 例 如 ， 一 个 文本 文件 可 能 看 起 来 像 这 样 : 


The ADJECTIVE panda walked to the NOUN and then VERB. A nearby NOUN was 
unaffected by these events. 


程序 将 找到 这 些 出 现 的 单词 ， 并 提示 用 户 取 代 它 们 。 











































































































Enter an adjective: 
silly 

Enter a noun: 
chandelier 

Enter a verb: 
screamed 

Enter a noun: 
pickup truck 


以 下 的 文本 文件 将 被 创建 : 


The silly panda walked to the chandelier and then screamed. A nearby pickup 
truck was unaffected by these events. 


结果 应 该 打印 到 屏幕 上 ， 并 保存 为 一 个 新 的 文本 文件 。 


8.9.3 ”正则 表达 式 查找 
编写 一 个 程序 ， 打 开 文 件 夹 中 所 有 的 .txt 文件 ， 查 找 匹配 用 户 提供 的 正则 表达 
式 的 所 有 行 。 结 果 应 该 打印 到 屏幕 上 。 
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组 织 文 件 























在 上 一 章 中 ， 你 学 习 了 如 何 用 Python 创建 并 写 入 新 文件 。 
你 的 程序 也 可 以 组 织 硬盘 上 已 经 存在 的 文件 。 也 许 你 兽 经 经 历 
过 查找 一 个 文件 夹 ， 里 面 有 几 十 个 、 几 百 个 ， 甚 至 上 千 个 文件 ， 
需要 手工 进行 复制 、 改 名 、 移 动 或 压缩 。 或 者 考虑 下 面 这 样 的 
任务 : 
。 在 一 个 文件 夹 及 其 所 有 子 文件 夹 中 ， 复 制 所 有 的 pdf 文件 
〈 且 只 复制 pdf 文件 ) 

。 针对 一 个 文件 夹 中 的 所 有 文件 , 删除 文件 名 中 前 导 的 零 ， 该 文件 夹 中 有 数 百 个 
文件 ， 名 为 spam001.txt、spam002.txt、spam003.txt 等 。 
。 将 几 个 文件 夹 的 内 容 压 缩 到 一 个 ZIP 文件 中 (这 可 能 是 一 个 简单 的 备份 系统 ) 

所 有 这 种 无 聊 的 任务 , 正 是 在 请 求 用 Python 实现 自动 化 。 通过 对 电脑 编程 来 完 
成 这 些 任 务 ， 你 就 把 它 变 成 了 一 个 快速 工作 的 文件 职员 ， 而 且 从 不 犯错 。 

在 开始 处 理 文件 时 你 会 发 现 ， 如 果 能 够 很 快 查 看 文件 的 扩展 名 (.txt、.pdf、.jpg 
等 )， 是 很 有 帮助 的 。 在 OSX 和 Linux 上 ， 文 件 浏 览 器 很 有 可 能 自动 显示 扩展 名 。 
在 Windows 上 ,文件 扩展 名 可 能 默认 是 隐藏 的 .要 显示 扩展 名 ,请 点 开 Start > Control 
Panel 》 Appearance 和 Personalization ， Folder 选项。 在 View 选项 卡 中 ，Advanced 
Settings 之 下 ， 取 消 Hide extensions for known file types 复 选 框 。 
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9.1 shutil 模块 


shutil (或 称 为 shell 工具 ) 模块 中 包含 一 些 函 数 ， 让 你 在 Python 程序 中 复制 、 
移动 、 改 名 和 删除 文件 。 要 使 用 shutil 的 函数 ， 首 先 需要 import shutil。 
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9.1.1 复制 文件 和 文件 夹 
shuti 模块 提供 了 一 些 函 数 ， 用 于 复制 文件 和 整个 文件 夹 。 
调用 shutil.copy(source, destination)， 将 路 径 source 处 的 文件 复制 到 路 径 destination 
处 的 文件 夹 (source 和 destination 都 是 字符 串 )。 如 果 destination 是 一 个 文件 名 ， 它 将 
作为 被 复制 文件 的 新 名 字 。 该 函数 返回 一 个 字符 串 ， 表 示 被 复制 文件 的 路 径 。 
在 交互 式 环境 中 输入 以 下 代码 ， 看 看 shutil.copy0 的 效果 : 


>>> import shutil, os 
>>> os.chdir('C:\\') 

© >>> shutil.copy('C:\\spam.txt', 'C:\\delicious') 
'C:\\delicious\\spam.txt' 

@ >>> shutil.copy('eggs.txt', 'C:\\delicious\\eggs2.txt') 
'C:\\delicious\\eggs2.txt' 


































































































第 一 个 shutil.copyO 调 用 将 文件 Ci\spam.txt 复制 到 文件 夹 C:delicious。 返 回 值 
是 刚刚 被 复制 的 文件 的 路 径 。 请 注意 ， 因 为 指定 了 一 个 文件 夹 作为 目的 地 @， 原 来 
的 文件 名 spam.txt 就 被 用 作 新 复制 的 文件 名 。 第 二 个 shutil.copy0 调 用 @ 也 将 文件 
C:eggs.txt 复制 到 文件 夹 C:\delicious， 但 为 新 文件 提供 了 一 个 名 字 eggs2.txt。 

shutil.copy0 将 复制 一 个 文件 ，shutil.copytree() 将 复制 整个 文件 夹 ， 以 及 它 包 含 
的 文件 夹 和 文件 。 调 用 shutil.copytree(source，destination)， 将 路 径 source 处 的 文件 
来， 包括 它 的 所 有 文件 和 子 文件 来 ， 复 制 到 路 径 destination 处 的 文件 来。source 和 
destination 参数 都 是 字符 串 。 该 函数 返回 一 个 字符 串 ， 是 新 复制 的 文件 夹 的 路 径 。 

企 交 互 式 环 境 中 输入 以 下 代码 : 


>>> import shutil, os 

>>> os.chdir('C:\\') 

>>> shutil.copytree('C:\\bacon', 'C:\\bacon_backup') 
'C:\\bacon_backup’ 


shutil.copytreeO0 调 用 创建 了 一 个 新 文件 来， 名 为 bacon_backup， 其 中 的 内 容 与 
原来 的 bacon 文件 夹 一 样 。 现 在 你 已 经 备份 了 非常 非常 宝贵 的 “bacon”。 
























































































































































9.1.2 文件 和 文件 夹 的 移动 与 改名 

调用 shutilmove(source，destination)， 将 路 径 source 处 的 文件 夹 移 动 到 路 径 

destination， 并 返回 新 位 置 的 绝对 路 径 的 字符 串 。 
如 果 destination 指向 一 个 文件 光 ，source 文件 将 移动 到 destination 中 ， 并 保持 

原来 的 文件 名 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 
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>>> import shutil 
>>> shutil.move('C: 


\\bacon.txt', 'C:\\eggs') 


'C:\\eggs\\bacon.txt' 




















本 





假定 在 C:\ 目 录 中 己 存 在 一 个 名 为 eggs 的 文件 夹 ， 这 个 shutil.move0 调 用 就 是 


说 ,“ 将 C:bacon.txt 移动 到 文件 夹 C:\eggs 中 。 







































































忆 


如 果 在 C:\eggs 中 原来 已 经 存在 一 个 文件 bacon.txt， 它 就 会 被 覆 写 。 因 为 用 这 


种 方式 很 容易 不 4 














\ 心 覆 写 文件 ， 所 以 在 使 用 moveO0 时 应 该 注意 。 











destination 路 径 也 可 以 指定 一 个 文件 名 。 在 下 面 的 例子 中 ，source 文件 被 移动 


并 改名 。 


>>> shutil.move('C: 





\\bacon.txt', 'C:\\eggs\\new bacon.txt') 


'C:\\eggs\\new bacon.txt' 


这 一 行 是 说 ， 








“将 Ci\bacon.txt 移动 到 文件 夹 C:\eggs， 完 成 之 后 ， 将 bacon.txt 











文件 改名 为 new_bacon.txt。?” 





前 面 两 个 例子 都 假设 在 C\ 目 录 下 有 一 个 文件 夹 eggs。 但 是 如 果 没 有 eggs 文人 
来 ，move0 就 会 将 bacon.txt 改名 ， 变 成 名 为 eggs 的 文件 。 











>>> shutil.move('C: 
'C:\\eggs’ 
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上 


\\bacon.txt', 'C:\\eggs') 


这 里 ，moveO 在 C:\ 目 录 下 找 不 到 名 为 eggs 的 文件 来 ， 所 以 假定 destination 指 











的 是 一 个 文件 ， 而 非 文 件 夹 。 所 以 bacon.txt 文本 文件 被 改名 为 eggs (没有 .txt 文件 











扩展 名 的 文本 文人 


By 





因为 moveO 调 用 会 很 开心 地 做 一 些 事 情 , 但 和 你 所 期 望 的 完全 不 同 。 这 也 是 在 使 用 


F)， 但 这 可 能 不 是 你 所 希望 的 ! 这 可 能 是 程序 中 很 难 发 现 的 缺陷 ， 












































moveO 时 要 小 心 的 另 一 个 理由 。 





最 后 ， 构 成 目 











的 地 的 文件 夹 必须 已 经 存在 ， 否则 Python 会 抛 出 异常 。 在 交互 式 

















环境 中 输入 以 下 代码 : 


>>> shutil.move('spam.txt', 'c:\\does not exist\\eggs\\ham') 
Traceback (most recent call last): 
File "C:\Python34\lib\shutil.py", line 521, in move 


os.rename(src, 
FileNotFoundError: 


real dst) 
[WinError 3] The system cannot find the path specified: 


'spam.txt' -> 'c:\\does not exist\\eggs\\ham' 


During handling of 


the above exception, another exception occurred: 


Traceback (most recent call last): 

File "<pyshell#29>", line 1, in <module> 
shutil.move('spam.txt', 'c:\\does not exist\\eggs\\ham') 

File "C:\Python34\1lib\shutil.py", line 533, in move 
copy2(src, real dst) 

File "C:\Python34\lib\shutil.py", line 244, in copy2 
copyfile(src, dst, follow symlinks=follow symlinks) 

File "C:\Python34\lib\shutil.py", line 108, in copyfile 


with open(dst， 
FileNotFoundError: 
eggs\\ham 


'wb') as fdst: 
[Errno 2] No such file or directory: 'c:\\does not exist\\ 
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Python 在 does_not_exist 目录 中 寻找 eggs 和 ham。 它 没有 找到 不 存在 的 目录 ， 
所 以 不 能 将 spam.txt 移动 到 指定 的 路 径 。 




















9.1.3 永久 删除 文件 和 文件 夹 
利用 os 模块 中 的 函数 , 可 以 删除 一 个 文件 或 一 个 空 文件 夹 。 但 利用 shutil 模块 ， 
可 以 删除 一 个 文件 夹 及 其 所 有 的 内 容 。 

e。 用 os.unlink(path) 将 删除 path 处 的 文件 。 


































































































。 调用 os.rmdir(path) 将 删除 path 处 的 文件 夹 。 该 文件 夹 必须 为 宇 ， 其 中 没有 任 
何 文 件 和 文件 夹 。 

。 调用 shutilrmtree(patb) 将 删除 path 处 的 文件 夹 , 它 包含 的 所 有 文件 和 文件 夹 都 
会 被 删除 。 














在 程序 中 使 用 这 些 函 数 时 要 小 心 ! 可 以 第 一 次 运行 程序 时 ， 注 释 掉 这 些 调用 ， 
并 且 加 上 printO 调 用 ， 显 示 会 被 删除 的 文件 。 这 样 做 是 一 个 好 主意 。 下 面 有 一 个 
Python 程序 ， 本 来 打算 删除 具有 .txt 扩展 名 的 文件 ， 但 有 一 处 录入 错误 用 粗 体 突 
出 右 : )， 结 果 导 致 它 删 除了 .rxt 文件 。 

import os 

for filename in os.1listdir(): 


if filename.endswith( .Prxt' ) : 
os.unlink(filename) 





























































































































如 果 你 有 某 些 重要 的 文件 以 .rxt 结尾 ， 它 们 就 会 被 不 小 心 永久 地 删除 。 作 为 蔡 
代 ， 你 应 该 先 运 行 像 这 样 的 程序 : 
import os 
for filename in os.1listdir(): 


if filename.endswith(' .Frxt' ) : 
#0S.unlink (filename) 














print(filename) 


现在 os.unlinkO 调 用 被 注释 掉 ， 所 以 Python 会 忽略 它 。 作 为 替代 ， 你 会 打印 出 
将 被 删除 的 文件 名 。 先 运行 这 个 版 本 的 程序 ， 你 就 会 知道 ， 你 不 小 心 告 诉 程序 要 删 
除 .rxt 文件 ， 而 不 是 .txt 文件 。 

在 确定 程序 按照 你 的 意图 工作 后 ， 删 除 printdfilename) 代 码 行 ， 取 消 
os.unlink(filename) 代 码 行 的 注释 。 然 后 再 次 运行 该 程序 ， 实 际 删 除 这 些 文件 。 



























































9.1.4 用 send2trash 模块 安全 地 删除 
因为 Python 内 建 的 shutilrmtreeO 函 数 不 可 恢复 地 删除 文件 和 文件 夹 , 所 A 用 起 
来 可 能 有 危险。 删除 文件 和 文件 夹 的 更 好 方法 ， 是 使 用 第 三 方 的 send2trash 模块 。 
你 可 以 在 终端 窗口 中 运行 pip install send2trash， 安 装 该 模块 (参见 附录 A， 更 
详细 地 解释 了 如 何 安装 第 三 方 模块 )。 

利用 send2trash， 比 Python 常规 的 删除 函数 要 安全 得 多 
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因为 它 会 将 文件 夹 和 























文件 发 送 到 计算 机 的 垃圾 箱 或 回收 站 ， 而 不 是 永久 删除 它们 。 如 果 因 程序 缺陷 而 用 























send2trash 删除 了 某 些 你 不 想 删 除 的 东西 ， 稍 后 可 以 从 垃圾 箱 恢 复 。 
安装 send2trash 后 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import send2trash 

>>> baconFile = open('bacon.txt', 'a') # creates the file 
>>> baconFile.write('Bacon is not a vegetable.') 

25 

>>> baconFile.close() 

>>> send2trash.send2trash('bacon.txt') 



































一 般 来 说 ， 总 是 应 该 使 用 send2trash.send2trash0 〇 函数 来 删除 文件 和 文件 夹 。 虽 
然 它 将 文件 发 送 到 垃圾 箱 ， 让 你 稍 后 能 够 恢复 它们 ， 但 是 这 不 像 永 久 删 除 文 件 ， 不 
和 





















































会 释放 磁盘 空间 。 如 果 你 希望 程序 释放 磁盘 空间 ， 就 要 用 os 和 shutil 来 删除 文件 
































文件 严 。 请 注意 ，send2trashO 函 数 只 能 将 文件 送 到 垃圾 箱 ， 不 能 从 中 恢复 文件 。 











9.2 ”过 有 历 目录 树 























假定 你 希望 对 某 个 文件 夹 中 的 所 有 文件 改名 ,包括 该 文件 夹 中 所 有 子 文 伯 
























































F 夹 


的 所 有 文件 。 也 就 是 说 ， 你 希望 壳 历 目录 树 ， 处 理 遇 到 的 每 个 文件 。 写 程序 完成 这 
件 事 ， 可 能 需要 一 些 技巧 。 好 在 ，Python 提供 了 一 个 函数 ， 替 你 处 理 这 个 过 程 。 












































请 看 Ci\delicious 文件 夹 及 其 内 容 ， 如 图 9-1 所 示 。 








C\ 
| delicious 

cats 

| caofnames.jxf 

zophie.jpg 

walnut 

| waffles 

L butter.txt 

spam. txt 


图 9-1 一 个 示例 文件 夹 ， 包 含 3 个 文件 夹 和 4 个 文件 


这 里 有 一 个 例子 程序 ， 针 对 图 9-1 的 目录 树 ， 使 用 了 os.walk0 消 数 : 


import os 












































for folderName, subfolders, filenames in os.walk('C:\\delicious'): 
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print('The current folder is ' + folderName) 


for subfolder in subfolders: 


print('SUBFOLDER OF ' + folderName + ': ' + subfolder) 
for filename in filenames: 

print('FILE INSIDE ' + folderName + ': '+ filename) 
print('') 


os.walkO 函 数 被 传 入 一 个 字符 串 值 ， 即 一 个 文件 夹 的 路 径 。 你 可 以 在 一 个 for 
循环 语句 中 使 用 os.walk() 函 数 ， 侦 历 目录 树 ， 就 像 使 用 range0 函 数 遍 历 一 个 范围 的 
数字 一 样 。 不 像 range0，os.walkO 在 循环 的 每 次 迭代 中 ， 返 回 3 个 值 : 
1. 当前 文件 夹 名 称 的 字符 串 。 
2. 当前 文件 夹 中 子 文件 夹 的 字符 串 的 列表 。 
3. 当前 文件 夹 中 文件 的 字符 串 的 列表 。 
所 谓 当前 文件 夹 ， 是 指 for 循环 当前 迭代 的 文件 夹 。 程 序 的 当前 工作 目录 ， 不 
会 因为 os.walkO 而 改变 。 
就 像 你 可 以 在 代码 for iin range(10): 中 选择 变量 名 称 i 一样 , 你 也 可 以 选择 前 面 
列 出 来 的 3 个 字 的 变量 名 称 。 我 通常 使 用 foldername、subfolders 和 flenames。 
运行 该 程序 ， 它 的 输出 如 下 : 
The current folder is C:\delicious 
SUBFOLDER OF C:\delicious: cats 


SUBFOLDER OF C:\delicious: walnut 
FILE INSIDE C:\delicious: spam.txt 
























































































































































The current folder is C:\delicious\cats 
FILE INSIDE C:\delicious\cats: catnames.txt 
FILE INSIDE C:\delicious\cats: zophie.jpg 


The current folder is C:\delicious\walnut 
SUBFOLDER OF C:\delicious\walnut: waffles 


The current folder is C:\delicious\walnut\waffles 
FILE INSIDE C:\delicious\walnut\waffles: butter.txt. 


因为 os.walk0 返 回 字 符 串 的 列表 , 保存 在 subfolder 和 flename 变量 中 , 所 以 你 
可 以 在 它们 自己 的 for 循环 中 使 用 这 些 列表 。 用 你 自己 定制 的 代码 ， 取 代 printO 函 
数 调 用 (或 者 如 果 不 需 要 ， 就 删除 for 循环 )。 













































































9.3 用 zipfile 模块 压缩 文件 
你 可 能 熟悉 ZIP 文件 ( 带 有 .zip 文件 扩展 名 )， 它 可 以 包含 许多 其 他 文件 的 压缩 
内 容 。 压 缩 一 个 文件 会 减少 它 的 大 小 ,这 在 因特网 上 传输 时 很 有 用 。 因 为 一 个 ZIP 文 
件 可 以 包含 多 个 文件 和 子 文件 夹 , 所 以 它 是 一 种 很 方便 的 方式 , 将 多 个 文件 打包 成 一 
个 文件 。 这 个 文件 叫做 “归档 文件 ” 然后 可 以 用 作 电 子 邮件 的 附件 ， 或 其 他 用 途 。 
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9.3.1 














利用 zipfile 模块 中 的 函数 ，Python 程序 可 以 创建 和 打开 或 解压 〉ZIP 文件 








假定 你 有 一 个 名 为 example.zip 的 zip 文件 ， 它 的 内 容 如 图 9-2 所 示 。 





cats 
catnames. txf 
zophie.ipg 

spam.txt 


9-2 example.zip 的 内 容 
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可 以 从 http://nostarch.com/automatestuff/ 下 载 这 个 ZIP 文件 ,或 者 利用 计算 机 上 








已 有 的 一 个 ZIP 文件 ， 接 着 完成 下 面 的 操作 。 


























读 取 ZIP 文件 














要 读 取 ZIP 文件 的 内 容 , 首先 必须 创建 一 个 ZipFile 对 象 (请 注意 大 写 首 字母 Z 



































和 F)。ZipFile 对 象 在 概念 上 与 File 对 象 相似 ， 你 在 第 8 章 中 曾经 看 到 open0O 函 数 
返回 File 对 象 : 它们 是 一 些 值 ， 程 序 通过 它们 与 文件 打交道 。 要 创建 一 个 ZipFile 
对 象 ， 就 调用 zipfile.ZipFile0 函 数 ， 向 它 传 入 一 个 字符 串 ， 表 示 .zip 文件 的 文件 名 。 

























































































请 注意 ，zipfile 是 Python 模块 的 名 称 ，ZipFile0) 是 函数 的 名 称 。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import zipfile, os 

>>> os.chdir('C:\\') # move to the folder with example.zip 
>>> exampleZip = zipfile.ZipFile('example.zip') 

>>> exampleZip.namelist() 

['spam.txt', 'cats/', 'cats/catnames.txt', 'cats/zophie.jpg'] 
>>> SpamInfo = exampleZip.getinfo('spam.txt') 

>>> spamInfo.file size 

13908 

>>> spamInfo.compress_size 

3828 

>>> 'Compressed file is %sx smaller!' % (round(spamInfo.file size / spamInfo 
.Compress_size, 2)) 

"Compressed file is 3.63x smaller!’ 

>>> exampleZip.close() 


ZipFile 对 象 有 一 个 namelist0 方 法 ， 返 回 ZIP 文件 








© 











et 























包含 的 所 有 文件 和 文件 夹 


的 字符 串 的 列表 。 这 些 字符 串 可 以 传递 给 ZipFile 对 象 的 getinfo0 方 法 ,返回 一 个 关 



























































每 个 文件 的 有 用 信息 。 





整个 归档 文件 ， 而 ZipInfo 对 象 则 保存 该 归档 文件 















































@ 处 的 命令 计算 出 example.zip 压缩 的 效率 , 用 压缩 后 文件 的 大 小 除 以 原来 文件 
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于 特定 文件 的 ZipInfo 对 象 ZipInfo 对 象 有 自己 的 属性 , 诸如 表示 字 节 数 的 fle_size 
和 compress_size， 它 们 分 别 表示 原来 文件 大 小 和 压缩 后 文件 大 小 。ZipFile 对 象 表示 
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上 
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的 大 小 ， 并 以 %s 字符 串 格 式 打印 出 这 一 信息 。 





9.3.2 从 ZIP 文件 中 解压 缩 
ZipFile 对 象 的 extractall0 方 法 从 ZIP 文件 中 解压 缩 所 有 文件 和 文件 夹 ， 放 到 当 
前 工作 目录 中 。 


>>> import zipfile, os 

>>> os.chdir('C:\\') # move to the folder with example.zip 
>>> exampleZip = zipfile.ZipFile('example.zip') 

>>> exampleZip.extractall() 

>>> exampleZip.close() 


运行 这 段 代 码 后 ，example.zip 的 内 容 将 被 解压 缩 到 C\。 或 者 ， 你 可 以 向 
extractall() 传 递 的 一 个 文件 夹 名 称 , 它 将 文件 解压 缩 到 那个 文件 夹 , 而 不 是 当前 工作 
目录 。 如 果 传 递 给 extractall0) 方 法 的 文件 夹 不 存在 ， 它 会 被 创建 。 例 如 ， 如 果 你 用 
exampleZip.extractall('C:\ delicious) 取 代 @ 处 的 调用 , 代码 就 会 从 example.zip 中 解压 
缩 文 件 ， 放 到 新 创建 的 C:delicious 文件 夹 中 。 

ZipFile 对 象 的 extract0 方 法 从 ZIP 文件 
的 例子 : 


>>> exampleZip.extract('spam.txt') 

'C:\\spam.txt' 

>>> exampleZip.extract('spam.txt', 'C:\\some\\new\\folders') 
'C:\\some\\new\\folders\\spam.txt' 

>>> exampleZip.close() 


传递 给 extract0 的 字符 串 ， 必 须 匹 配 namelist0 返 回 的 字符 串 列表 中 的 一 个 。 或 
者 ， 你 可 以 向 extract0 传 递 第 二 个 参数 ， 将 文件 解压 缩 到 指定 的 文件 来， 而 不 是 当 
前 工作 目录 。 如 果 第 二 个 参数 指定 的 文件 夹 不 存在 ，Python 就 会 创建 它 。extractO 
的 返回 值 是 被 压缩 后 文件 的 绝对 路 径 。 
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解压 缩 单 个 文件 。 继 续 交 互 式 环境 ， 




































































9.3.3 ”创建 和 添加 到 ZIP 文件 
要 创建 你 自己 的 压缩 ZIP 文件 ， 必 须 以 “ 写 模式 ”打开 ZipFile 对 象 ， 即 传 入 'w' 
作为 第 二 个 参数 〈 这 类 似 于 向 open0 函 数 传 入 w'， 以 写 模式 打开 一 个 文本 文件 )。 
如 果 向 ZipFile 对 象 的 write() 方 法 传 入 一 个 路 径 ，Python 就 会 压缩 该 路 径 所 指 
的 文件 ， 将 它 加 到 ZIP 文件 中 。write0 方 法 的 第 一 个 参数 是 一 个 字符 串 ， 代 表 要 添 
加 的 文件 名 。 第 二 个 参数 是 “压缩 类 型 ”参数 ， 它 告诉 计算 机 使 用 怎样 的 算法 来 压 
缩 文件 。 可 以 总 是 将 这 个 值 设 置 为 zipfile.ZIP_DEFLATED (这 指定 了 deflate 压缩 
算法 ， 它 对 各 种 类 型 的 数据 都 很 有 效 )。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> import zipfile 
>>> newZip = zipfile.ZipFile('new.zip', 'w') 


>>> newZip.write('spam.txt', compress_ type=zipfile.ZIP_DEFLATED) 
>>> newZip.close() 
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这 段 代 码 将 创建 一 个 新 的 ZIP 文件 , 名 为 new.zip, 它 包 含 spam.txt 压缩 后 的 内 容 。 
要 记 住 ， 就 像 写 入 文件 一 样 ， 写 模式 将 探 除 ZIP 文件 中 所 有 原 有 的 内 容 。 如 果 
只 是 希望 将 文件 添加 到 原 有 的 ZIP 文件 中 ， 就 要 问 zipfile.ZipFile0 传 入 'a' 作 为 第 二 
个 参数 ， 以 添加 模式 打开 ZIP 文件 。 




































































9.4 项 目 : 将 带 有 美国 风格 日 期 的 文件 改名 为 欧洲 风格 日 期 


假定 你 的 老板 用 电子 邮件 发 给 你 上 千 个 文件 ， 文 件 名 包含 美国 风格 的 日 期 
(MM-DD-YYYY)， 需 要 将 它们 改名 为 欧洲 风格 的 日 期 (DD-MM-YYYY)。 所 - 完 
成 这 个 无 聊 的 任务 可 能 需要 几 天 时 间 ! 让 我 们 写 一 个 程序 来 完成 它 。 

下 面 是 程序 要 做 的 事 : 

。 检查 当前 工作 目录 的 所 有 文件 名 ， 寻 找 美国 风格 的 日 期 。 
。 如 果 找 到 ， 将 该 文件 改名 ， 交 换 月 份 和 日 期 的 位 置 ， 使 之 成 为 欧洲 风格 。 
这 意味 着 代码 需要 做 下 面 的 事情 : 
。 创建 一 个 正则 表达 式 ， 可 以 识别 美国 风格 日 期 的 文本 模式 。 
。 调用 oslistdir0， 找 出 工作 目录 中 的 所 有 文件 。 
。 循环 遍历 每 个 文件 名 ， 利 用 该 正则 表达 式 检查 它 是 否 包含 日 期 。 
。 如 果 它 包含 日 期 ， 用 shutilmove0 对 该 文件 改名 。 

对 于 这 个 项 目 ， 打开 一 个 新 的 文件 编辑 器 窗口 ， 将 代码 保存 为 renameDates.py。 
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第 1 步 : 为 美国 风格 的 日 期 创建 一 个 正则 表达 式 
程序 的 第 一 部 分 需要 导入 必要 的 模块 ， 并 创建 一 个 正则 表达 式 ， 它 能 识别 
MM-DD-YYYY 格式 的 日 期 。TODO 注释 将 提醒 你 ， 这 个 程序 还 要 写 什么 。 将 它们 作 


为 TODO， 就 很 容易 利用 IDLE 的 Cul-F 查找 功能 找到 它们 。 让 你 的 代码 看 起 来 像 这 样 ; 


#! python3 


# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 



































© import shutil, os, re 


# Create a regex that matches files with the American date format. 
@ datePattern = re.compile(r"""^(.*?) # all text before the date 


((0|1)?\d)- # one or two digits for the month 
((011|213)?\d) - # one or two digits for the day 
((19|20)\d\d) # four digits for the year 
(.*?)$ # all text after the date 

日 """, re.VERBOSE) 


# TODO: Loop over the files in the working directory. 
# TODO: Skip files without a date. 


# TODO: Get the different parts of the filename. 
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# TODO: Form the European-style filename. 
# TODO: Get the full, absolute file paths. 


# TODO: Rename the files. 


通过 本 章 ， 你 知道 shutiLmoveO 函 数 可 以 用 于 文件 改名 : 它 的 参数 是 要 改名 的 文件 
名 ， 以 及 新 的 文件 名 。 因 为 这 个 函数 存在 于 shutil 模块 中 ， 所 以 你 必须 导入 该 模块 @。 
在 为 这 些 文件 改名 之 前 ， 需 要 确定 哪些 文件 要 改名 。 文 件 名 如 果 包 含 
spam4-4-1984.txt 和 01-03-2014eggs.zip 这 样 的 日 期 ， 就 应 该 改名 ， 而 文件 名 不 包含 
日 期 的 应 该 忽略 ， 诸 如 littlebrother.epub。 

可 以 用 正则 表达 式 来 识别 该 模式 。 在 开始 导入 re 模块 后 ， 调 用 re.compileO 创 
建 一 个 Regex 对 象 @。 传 入 re.VERBOSE 作为 第 二 参数 @， 这 将 在 正则 表达 式 字 符 
串 中 允许 空白 字符 和 注释 ， 让 它 更 可 读 。 

正则 表达 式 字 符 串 以 和 .*?) 开 始 , 匹配 文件 名 开始 处 、 日 期 出 现 之 前 的 任何 文本 。 
((0ID2d) 分 组 匹配 月 份 。 第 一 个 数字 可 以 是 0 或 1， 所 以 正则 表达 式 匹配 12， 作 为 
十 二 月 份 ， 也 会 匹配 02， 作 为 二 月 份 。 这 个 数字 也 是 可 选 的 ， 所 以 四 月 份 可 以 是 
04 或 4。 日 期 的 分 组 是 ((0|1|2|3)?\qd)， 它 遵循 类 似 的 逻辑 。3、03 和 31 是 有 效 的 日 期 
数字 是 的 ， 这 个 正则 表达 式 会 接受 一 些 无 效 的 日 期 诸如 4-31-2014、2-29-2013 
和 0-15-2014。 日 期 有 许多 特例 ， 很 容易 被 遗漏 。 为 了 简单 ， 这 个 程序 中 的 正则 表 
达 式 已 经 足够 好 了 )。 

虽然 1885 是 一 个 有 效 的 年 份 ， 但 你 可 能 只 在 寻找 20 世纪 和 21 世纪 的 年 份 。 
这 防止 了 程序 不 小 心 匹 配 非 日 期 的 文件 名 ， 它 们 和 日 期 格式 类 似 ， 诸 如 
10-10-1000.txt。 

正则 表达 式 的 (.*?)$ 部 分 ， 将 匹配 日 期 之 后 的 任何 文本 。 
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第 2 步 : 识别 文件 名 中 的 日 期 部 分 
接 下 来 , 程序 将 循环 遍历 oslistdir0 返 回 的 文件 名 字符 串 列 表 , 用 这 个 正则 表达 
式 匹配 它们 。 文 件 名 不 包含 日 期 的 文件 将 被 忽略 。 如 果 文 件 名 包含 日 期 ， 匹 配 的 文 
本 将 保存 在 几 个 变量 中 。 用 下 面 的 代码 代替 程序 中 前 3 个 TODO: 


#! python3 
# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 

























































































--SnIp-- 
# Loop over the files in the working directory . 
for amerFilename in os.listdir('.'): 

mo = datePattern.search(amerFilename) 


# Skip files Without a date . 
0 if mo == None: 
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© continue 


四 # Get the different parts of the filename . 
beforePart = mo.group(1) 
monthPart = mo.group(2) 
dayPart = mo.group(4) 
yearPart = mo.group(6) 
afterPart = mo.group(8) 
--SNip-- 








开 





如 果 search() 方 法 返回 的 Match 对 象 是 None@， 那 么 amerFilename 中 的 文件 名 
不 匹配 该 正则 表达 式 。continue 语句 四 将 跳 过 循环 剩 下 的 部 分 ， 转 向 下 一 个 文件 名 。 

否则 ， 该 正则 表达 式 分 组 匹配 的 不 同 字符 串 ， 将 保存 在 名 为 beforePart、 
monthPart、dayPart、yearPart 和 afterPar 的 变量 中 @。 这 些 变 量 中 的 字符 串 将 在 下 一 
步 中 使 用 ， 用 于 构成 欧洲 风格 的 文件 名 。 

为 了 让 分 组 编号 直观 ， 请 尝试 从 头 阅读 该 正则 表达 式 ， 每 遇 到 一 个 左 括号 就 计数 加 
一 。 不 要 考虑 代码 ， 只 是 写 下 该 正则 表达 式 的 框架 。 这 有 助 于 使 分 组 变 得 直观 ， 例 如 : 


all text before the date 

one or two digits for the month 
one or two digits for the day 
four digits for the year 

all text after the date 
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datePattern = re.compile(r"""^(1) 
(2 (3) )- 
(4 (5) )- 
(6 (7) ) 
(8)$ 
"", re.VERBOSE) 


这 里 ， 编 号 1 至 8 代表 了 该 正则 表达 式 中 的 分 组 。 写 出 该 正则 表达 式 的 框架 ， 
其 中 只 包含 括号 和 分 组 编号 。 这 让 你 更 清楚 地 理解 所 写 的 正则 表达 式 ， 然 后 再 转向 
程序 中 剩 下 的 部 分 。 


洒洒 六 六 六 































































































第 3 步 : 构成 新 文件 名 ， 并 对 文件 改名 
作为 最 后 一 步 ， 连 接 前 一 步 生 成 的 变量 中 的 字符 串 ， 得 到 欧洲 风格 的 日 期 : 
期 在 月 份 之 前 。 用 下 面 的 代码 代 丛 程序 中 最 后 3 个 TODO: 


#! python3 
# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 





















































--SNip-- 


# Form the European-style filename. 
0 euroFilename = beforePart + dayPart + '-' + monthPart + '-' + yearPart + 
afterPart 


# Get the full, absolute file paths . 
absWorkingDir = os.path.abspath('.') 
amerFilename = os.path.join(absWorkingDir, amerFilename) 
euroFilename = os.path.join(absWorkingDir, euroFilename) 

# Rename the files. 
© print('Renaming "%s" to "%s"...' % (amerFilename, euroFilename)) 
© #shutil.move(amerFilename, euroFilename) # uncomment after testing 
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将 连接 的 字符 串 保 存在 名 为 euroFilename 的 变量 中 @。 然后 竹 amerFilename 中 
原来 的 文件 名 和 新 的 euroFilename 变量 传递 给 shutil.move0) 函 数 ， 将 该 文件 改名 稀 。 

这 个 程序 将 shutil.move0O 调 用 注释 掉 ， 代 之 以 打印 出 将 被 改名 的 文件 名 @。 先 
像 这 样 运行 程序 ， 你 可 以 确认 文件 改名 是 正确 的 。 然 后 取消 shutil.moveO 调 用 的 汶 
释 ， 再 次 运行 该 程序 ， 确 实 将 这 些 文件 改名 。 
































Et 












































| 





























第 4 步 : 类 似 程序 的 想法 

有 很 多 其 他 的 理由 ， 导 致 你 需要 对 大 量 的 文件 改名 。 

为 文件 名 添加 前 级 ， 诸 如 添加 spam_， 将 eggs.txt 改名 为 spam_eggs.txt。 
。 将 欧洲 风格 日 期 的 文件 改名 为 美国 风格 日 期 。 

。 删除 文件 名 中 的 0， 诸 如 spam0042.txt。 










































































9.5 项 目 : 将 一 个 文件 夹 备 份 到 一 个 ZIP 文件 


假定 你 正在 做 一 个 项 目 ， 它 的 文件 保存 在 C:\AlsPythonBook 文件 夹 中 。 你 担心 工作 
会 丢失 ， 所 以 希望 为 整个 文件 夹 创建 一 个 ZIP 文件 ， 作 为 “快照 ” 你 希望 保存 不 同 的 版 
本 ， 和 希望 ZIP 文件 的 文件 名 每 次 创建 时 都 有 所 变化 。 例 如 AlsPythonBook_1.zip、 
AlsPythonBook_2.zip、AlsPythonBook_3.zip， 等 等 。 你 可 以 手工 完成 ， 但 这 有 点 烦人 ， 
而 且 可 能 不 小 心 弄 错 ZIP 文件 的 编号 .运行 一 个 程序 来 完成 这 个 烦人 的 任务 会 简单 得 多 。 

针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 backupToZip.py。 







































































第 1 步 : 弄 清楚 ZIP 文件 的 名 称 
这 个 程序 的 代码 将 放 在 一 个 名 为 backupToZip0 的 函数 中 。 这 样 就 更 容易 将 该 函 
数 复制 粘贴 到 其 他 需要 这 个 功能 的 Python 程序 中 。 在 这 个 程序 的 末尾 , 会 调用 这 个 
函数 进行 备份 。 让 你 的 程序 看 起 来 像 这 样 : 
#! python3 


# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 



































ee 















































© import zipfile, os 


def backupToZip(folder): 
# Backup the entire contents of "folder" into a ZIP file. 


folder = os.path.abspath(folder) # make sure folder is absolute 


# Figure out the filename this code should use based on 
# what files already exist. 


© number = 1 
© while True: 
zipFilename = os.path.basename(folder) + '_' + str(number) + '.zip’ 


if not os.path.exists(zipFilename): 
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break 
number = number + 1 


@ # TODO: Create the ZIP file. 


# TODO: Walk the entire folder tree and compress the files in each folder. 
print('Done.') 


backupToZip('C:\\delicious') 

先 完成 基本 任务 : 添加 #! 行 ， 描 述 该 程序 做 什么 ， 并 导入 zipfile 和 os 模块 @。 

定义 backupToZip0 函 数 ， 它 只 接收 一 个 参数 ， 即 folder。 这 个 参数 是 一 个 字符 
串 路 径 , 指向 需要 备份 的 文件 夹 。 该 函数 将 决定 它 创 建 的 ZIP 文件 使 用 什么 文件 名 ， 
然后 创建 该 文件 ， 人 遍历 folder 文件 来 ， 将 每 个 子 文件 夹 和 文件 添加 到 ZIP 文件 中 。 
在 源 代码 中 为 这 些 步 又 写 下 TODO 注释 ， 提 醒 你 稍 后 来 完成 @ 。 

第 一 部 分 命名 这 个 ZIP 文件 ， 使 用 folder 的 绝对 路 径 的 基本 名 称 。 如 果 要 备份 
的 文件 夹 是 Ci\delicious, ZIP 文件 的 名 称 就 应 该 是 delicious_N.zip, 第 一 次 运行 该 程 
序 时 N=1， 第 二 次 运行 时 N=2， 以 此 类 推 。 
通过 检查 delicious_1.zip 是 否 存 在 ,然后 检查 delicious_2.zip 是 否 存在 ， 继 续 下 
去 ， 可 以 确定 N 应 该 是 什么 。 用 一 个 名 为 number 的 变量 表示 N@， 在 一 个 循环 内 
不 断 增加 它 ， 并 调用 os.path.exists() 来 检查 该 文件 是 否 存在 目 。 第 一 个 不 存在 的 文件 
名 将 导致 循环 break， 因 此 它 就 发 现 了 新 ZIP 文件 的 文件 名 。 
















































































































































































第 2 步 : 创建 新 ZIP 文件 
接 下 来 让 我 们 创建 ZIP 文件 。 让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 

















--SNip-- 
while True: 
zipFilename = os.path.basename(folder) + '_' + str(number) + '.zip' 
if not os.path.exists(zipFilename): 
break 


number = number + 1 


# Create the ZIP file. 
print('Creating %s...' % (zipFilename)) 
0 backupZip = zipfile.ZipFile(zipFilename, 'w') 


# TODO: Walk the entire folder tree and compress the files in each folder. 
print('Done.') 


backupToZip('C:\\delicious') 


既然 新 ZIP 文件 的 文件 名 保存 在 zipFilename 变量 中 ， 你 就 可 以 调用 
zipfile.ZipFile0， 实 际 创 建 这 个 ZIP 文件 @ 。 确 保 传 入 'w' 作 为 第 二 个 参数 ， 这 样 ZIP 
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文件 以 写 模式 打开 。 


第 3 步 : 遍历 目录 树 并 添加 到 ZIP 文件 
现在 需要 使 用 os.walkO 函 数 ， 列 出 文件 夹 以 及 子 文件 夹 中 的 每 个 文件 。 让 你 的 
程序 看 起 来 像 这 样 : 


#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 

















--SNip-- 


# Walk the entire folder tree and compress the files in each folder. 


0 for foldername, subfolders, filenames in os.walk(folder): 
print('Adding files in %s...' % (foldername)) 
# Add the current folder to the ZIP file. 
© backupZip.write(foldername) 
# Add all the files in this folder to the ZIP file. 
© for filename in filenames: 


newBase / os.path.basename(folder) + '_' 
if filename.startswith(newBase) and filename.endswith(' .zip') 
continue # don't backup the backup ZIP files 
backupZip.write(os.path.join(foldername, filename)) 
backupZip.close() 


print('Done.') 


backupToZip('C:\\delicious') 


可 以 在 for 循环 中 使 用 os.walk()@， 在 每 次 迭代 中 ， 它 将 返回 这 次 迭代 当前 的 
文件 夹 名 称 、 这 个 文件 夹 中 的 子 文件 来 ， 以 及 这 个 文件 夹 中 的 文件 名 。 

在 这 个 for 循环 中 ， 该 文件 夹 被 添加 到 ZIP 文件 @。 髓 套 的 for 循环 将 遍历 
filenames 列表 中 的 每 个 文件 @ 。 每 个 文件 都 被 添加 到 ZIP 文件 中 ， 以 前 生成 的 备份 
ZIP 文件 除外 。 

如 果 运 行 该 程序 ， 它 产生 的 输出 看 起 来 像 这 样 : 
Creating delicious 1.zip... 

Adding files in C:\delicious... 

Adding files in C:\delicious\cats... 
Adding files in C:\delicious\waffles... 
Adding files in C:\delicious\walnut... 


Adding files in C:\delicious\walnut\waffles... 
Done. 


第 二 次 运行 它 时 ， 它 将 Ci\delicious 中 的 所 有 文件 放 进 一 个 ZIP 文件 ， 命 名 为 
delicious_2.zip， 以 此 类 推 。 
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第 4 步 : 类 似 程序 的 想法 
你 可 以 在 其 他 程序 中 遍历 一 个 目录 树 ， 将 文件 添加 到 压缩 的 ZIP 归档 文件 中 。 

例如 ， 你 可 以 编程 做 下 面 的 事情 : 
。 人 换 历 一 个 目录 树 , 将 特定 扩展 名 的 文件 归档 , 诸如 .txt 或 .py, 并 排除 其 他 文件 。 
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。 遍历 一 个 目录 树 ， 将 除 .txt 和 .py 文件 以 外 的 其 他 文件 归档 。 
。 在 一 个 目录 树 中 查找 文件 夹 , 它 包含 的 文件 数 最 多 , 或 者 使 用 的 磁盘 空间 最 大 。 










































































9.6 小 结 


























即使 你 是 一 个 有 经 验 的 计算 机 用 户 ， 可 能 也 会 用 鼠标 和 键盘 手工 处 理 文件 。 现 
7 得 处 理 少量 文件 的 工作 很 容易 。 但 有 了 时候， 如 果 用 计算 机 的 浏览 

， 你 需要 完成 的 任务 可 能 要 花 几 个 小 时 。 

os 和 shutil 模块 提供 了 一 些 函数 ， 用 于 复制 、 移 动 、 改 名 和 删除 文件 。 在 删除 
文件 时 ， 你 可 能 希望 使 用 send2trash 模块 ， 将 文件 移动 到 回收 站 或 垃圾 箱 ， 而 不 是 
永久 地 删除 它们 。 在 编程 处 理 文件 时 ， 最 好 是 先 注释 掉 实 际会 复制 /移动 /改名 /删除 
文件 的 代码 ， 添 加 print0 调 用 ， 这 样 你 就 可 以 运行 该 程序 ， 验 证 它 实 际会 做 什么 。 
通常 ， 你 不 仅 需 要 对 一 个 文件 夹 中 的 文件 执行 这 些 操 作 ， 而 是 对 所 有 下 级 子 文 
件 夹 执行 操作 。os.walk0 函 数 将 处 理 这 个 艰 苗 工作 ， 遍 历 文件 来， 这 样 你 就 可 以 专 
注 于 程序 需要 对 其 中 的 文件 做 什么 。 
zipfile 模块 提供 了 一 种 方法 ,用 Python 压缩 和 解压 ZIP 归档 文件 .和 os 和 shutil 
模块 中 的 文件 处 理 函 数 一 起 使 用 ， 很 容易 将 硬盘 上 任意 位 置 的 一 些 文件 打包 。 和 许 
多 独立 的 文件 相 比 ， 这 些 ZIP 文件 更 容易 上 传 到 网 站 ， 或 作为 E-mail 附件 发 送 。 
本 书 前 面 几 章 提供 了 源 代码 让 你 拷贝 。 但 如 果 你 编写 自己 的 程序 ， 可 能 在 第 一 
次 编写 时 不 会 完美 无 缺 。 下 一 章 将 聚焦 于 一 些 Python 模块 , 它们 帮助 你 分 析 和 调试 
程序 ， 这 样 就 能 让 程序 很 快 正确 运行 。 















































































































































































































































































































































9.7 习题 
1. shutilLcopy0 和 shutil.copytree0 之 间 的 区 别 是 什么 ? 
2. 什么 函数 用 于 文件 改名 ? 
3. send2trash 和 shutil 模块 中 的 删除 函数 之 间 的 区 别 是 什么 ? 





4. ZipFile 对 象 有 一 个 close0) 方 法 ， 就 像 File 对 象 的 close0 方 法 。ZipFile 对 象 
的 什么 方法 等 价 于 File 对 象 的 open() 方 法 ? 








9.8 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 


9.8.1 ”选择 性 拷贝 
编写 一 个 程序 ， 裔 历 一 个 目录 树 ， 查 找 特 定 扩展 名 的 文件 (诸如 .pdf 或 jpg)。 
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不 论 这 些 文件 的 位 置 在 哪里 ， 将 它们 拷贝 到 一 个 新 的 文件 夹 中 。 


9.8.2 ”删除 不 需要 的 文件 

一 些 不 需要 的 、 巨 大 的 文件 或 文件 夹 占 据 了 硬盘 的 空间 ， 这 并 不 少见 。 如 果 你 
试图 释放 计算 机 上 的 空间 ， 那 么 删除 不 想 要 的 巨大 文件 效果 最 好 。 但 首先 你 必须 找 
到 它们 。 
编写 一 个 程序 ， 遍 历 一 个 目录 树 ， 查 找 特别 大 的 文件 或 文件 来， 比方 说 ， 超 过 
100MB 的 文件 (回忆 一 下 ,要 获得 文件 的 大 小 ,可 以 使 用 os 模块 的 os.path.getsize() )。 
将 这 些 文件 的 绝对 路 径 打 印 到 屏幕 上 。 


9.8.3 ”消除 缺失 的 编号 
编写 一 个 程序 , 在 一 个 文件 夹 中 , 找到 所 有 带 指定 前 级 的 文件 , 诸如 spam001.txt, 
spam002.txt 等 ， 并 定位 缺失 的 编号 《例如 存在 spam001.txt 和 spam003.txt， 但 不 存 
在 spam002.txt)。 让 该 程序 对 所 有 后 面 的 文件 改名 ， 消 除 缺 失 的 编号 。 
作为 附加 的 挑战 ， 编 写 另 一 个 程序 ,在 一 些 连 续 编号 的 文件 中 , 空 出 一 些 编号 ， 
以 便 加 入 新 的 文件 。 
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既然 你 已 学 习 了 足够 的 内 容 ， 可 以 编写 更 复杂 的 程序 ， 
能 就 会 在 程序 中 发 现 不 那么 简单 的 缺陷 。 本 章 介 . 
和 技巧 ， 用 于 寻找 程序 中 缺陷 的 根源 ， 帮 助 你 更 快 更 容易 地 修 
复 缺 陷 。 
程序 员 之 间 流 传 着 一 个 老 笑话 :“ 编 码 占 了 编程 工作 量 的 
90%， 调 试 占 了 另外 90%。” 
计算 机 上 只 会 做 你 告诉 它 做 的 事情 ， 它 不 会 读 懂 你 的 心思 , 做 你 
想 要 它 做 的 事情 。 即 使 专业 的 程序 员 也 一 直 在 制造 缺陷 ， 所 以 如 果 你 的 程序 有 问题 ， 
不 必 感 到 泪 形 。 
好 在 ， 有 一 些 工 具 和 技巧 可 以 确定 你 的 代码 在 做 什么 ， 以 及 哪儿 出 了 问题 。 首 
先 ， 你 要 查看 日 志和 断言 。 这 两 项 功能 可 以 帮助 你 尽早 发 现 缺 陷 。 一 般 来 说 ， 缺 陷 发 
现 的 越 早 ， 就 越 容 易 修 复 。 
其 次 ， 你 要 学 习 如 何 使 用 调试 器 。 调 试 器 是 IDLE 的 一 项 功能 ， 它 可 以 一 次 执 
行 一 条 指令 ， 在 代码 运行 时 ， 让 你 有 机 会 检查 变量 的 值 ， 并 追踪 程序 运行 时 值 的 变 
化 。 这 比 程序 全 速 运行 要 慢 得 多 ， 但 可 以 帮助 你 查看 程序 运行 时 其 中 实际 的 值 ， 而 
不 是 通过 源 代码 推测 值 可 能 是 什么 。 
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10.1 抛 出 异常 
当 Python 试 
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图 执行 无 效 代码 时 ， 就 会 抛 出 


句 来 处 理 Python 的 异常 






































站 » 


j try 和 except 语 

















中 的 代码 ， 将 程序 执行 转 到 except 主 ] ”。 
抛 出 异常 使 用 raise 语句 。 在 代码 ! 
raise 关键 字 ; 



























































这 样 程序 就 可 
昌 你 也 可 以 在 代码 中 抛 出 自己 的 异常 。 抛 出 异常 相当 于 是 说 : 








以 从 你 预期 的 异常 中 恢复 。 
“停止 运行 这 个 函 








，fTaise 语句 包含 以 下 部 分 : 





。 对 Exception 函数 的 调用 ; 
。 传递 给 Exception 函数 的 字符 串 ， 包 含有 用 的 出 错 信 息 。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 














>>> raise Exception('This is the error message.') 
Traceback (most recent call last): 
File "<pyshell#191>", line 1, in <module> 
raise Exception('This is the error message.') 
Exception: This is the error message. 

















示 异 常 的 出 错 信息 。 


如 果 没 有 try 和 except 语句 履 盖 抛 出 异常 的 raise 语句 ， 该 程序 就 会 朋 溃 ， 并 显 












































通常 是 调用 该 函 
到 raise 语句 在 一 个 函数 : 
打开 一 个 新 的 文件 纺 


def boxPrint(symbol, width, height): 
if len(symbol) != 1: 

















会 吞 
会 









































0 raise Exception('Symbol must be a single character 
if width <= 2: 

© raise Exception('Width must be greater than 2.') 
if height <= 2: 

© raise Exception('Height must be greater than 2.') 


print(symbol * width) 

for i in range(height - 2): 
print(symbol + (' ' * (width - 

print(symbol * width) 


2)) + symbol) 


for sym, w, h in (('*', 4, 4), ('0', 20, 5),， 
try: 


('x', 1，3)， 


boxPrint(sym, w, h) 


except Exception as err: 
print('An exception happened: 


这 里 我 们 定义 了 一 个 boxPrint0 函数 ， 它 接受 一 个 


"+ str(err)) 

















数 的 代码 知道 如 何 处 理 异 常 ， 而 不 是 该 函数 本 身 。 所 以 你 常常 
，try 和 except 语句 在 调用 该 函数 的 代码 中 。 例 如 ， 
辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 boxPrint.py: 


六 全 


字符 、 





按照 指定 的 宽度 和 高 度 , 用 该 字符 创建 了 一 个 小 盒子 的 图 




















string.') 


('2Z', 3, 3)): 





一 个 宽度 和 一 个 高 度 。 它 


像 。 这 个 盒子 被 打印 到 屏幕 上 。 








假定 我 们 希望 该 字符 是 一 个 字符 ， 宽 度 和 高 度 要 大 于 2。 我 们 添加 了 站 语句 ， 
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10.2 











如 果 这些 条 件 没 有 满足 ， 就 扫 出 异常 。 稍 后 ， 当 我 们 用 不 同 的 参数 调用 boxPrint() 
时 ，try/except 语句 就 会 处 理 无 效 的 参数 。 

这 个 程序 使 用 了 except 语句 的 except Exception as err 形式 @。 如 果 boxPrint() 
返回 一 个 Exception 对 象 9@ 日 ， 这 条 语句 就 会 将 它 保 存在 名 为 err 的 变量 中 。 
Exception 对 象 可 以 传递 给 str()， 将 它 转换 为 一 个 字符 串 ， 得 到 用 户 友 好 的 出 错 信 息 @。 
运行 boxPrint.py， 输 出 看 起 来 像 这 样 : 


火炎 火炎 































































































* * 
* * 
炎炎 火炎 
00000000000000000000 
0 0 
0 0 


0 0 
00000000000000000000 


An exception happened: Width must be greater than 2. 
An exception happened: Symbol must be a single character string. 


使 用 try 和 except 语句 ， 你 可 以 更 优雅 地 处 理 错误 ， 而 不 是 让 整个 程序 骨 演 。 









































取得 反 回 跟踪 的 字符 串 





如 果 Python 遇 到 错误 ， 它 就 会 生成 一 些 错误 信息 ， 称 为 “ 反 向 跟踪 ”。 反 向 跟踪 
包含 了 出 错 消 息 、 导 致 该 错误 的 代码 行 号 ， 以 及 导致 该 错误 的 函数 调用 的 序列 。 这 
个 序列 称 为 “调用 栈 ”。 
在 IDLE 中 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 程序 ， 并 保存 为 error 
Example.py: 












































def Spam() : 
bacon() 
def bacon(): 
raise Exception('This is the error message.') 


Spam() 
如 果 运 行 errorExample.py， 输 出 看 起 来 像 这 样 : 


Traceback (most recent call last): 
File "errorExample.py", line 7, in <module> 
Spam() 
File "errorExample.py", line 2, in spam 
bacon() 
File "errorExample.py", line 5, in bacon 
raise Exception('This is the error message.') 
Exception: This is the error message. 


通过 反 向 跟踪 ， 可 以 看 到 该 错误 发 生 在 第 $ 行 ， 在 bacon0 函数 中 。 这 次 特定 的 
bacong 调用 来 自 第 2 行 ， 在 spam0 函数 中 ， 它 又 在 第 7 行 被 调用 的 。 在 从 多 个 位 
置 调用 函数 的 程序 中 ， 调 用 栈 就 能 帮助 你 确定 哪 次 调用 导致 了 错误 。 
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只 要 抛 出 的 异常 没有 被 处 理 ，Python 就 会 显示 反 向 跟踪 。 但 你 也 可 以 调用 
traceback.format_exc()， 得 到 它 的 字符 串 形式 。 如 果 你 希望 得 到 异常 的 反 向 跟踪 的 信 
息 ， 但 也 希望 except 语句 优雅 地 处 理 该 异常 ， 这 个 函数 就 很 有 用 。 在 调用 该 函数 之 
前 ， 需 要 导入 Python 的 traceback 模块 。 

例如 ， 不 是 让 程序 在 异常 发 生 时 就 骨 演 ， 可 以 将 反 向 跟踪 信息 写 
件 ， 并 让 程序 继续 运行 。 稍 后 ， 在 准备 调试 程序 时 ， 可 以 检查 该 日 志 
式 环境 中 输入 以 下 代码 : 


>>> import traceback 





























































































































入 一 个 日 志文 
文件 。 在 交互 





















































>>> try: 
raise Exception('This is the error message.') 
except: 
errorFile = open('errorInfo.txt', 'w') 
errorFile.write(traceback.format_ exc()) 
errorFile.close() 
print('The traceback info was Written to errorInfo.txt.') 
116 


The traceback info was written to errorInfo.txt . 
































write( 方法 的 返回 值 是 116， 因 为 116 个 字符 被 写 入 到 文件 中 。 反 向 跟踪 文本 
被 写 入 errorInfo.txt。 


Traceback (most recent call last): 
File "<pyshell#28>", line 2, in <module> 
Exception: This is the error message. 


10.3” 渐 言 


“断言 ”是 一 个 心智 正常 的 检查 ， 确 保 代码 没有 做 什么 明显 错误 的 事情 。 这 些 
心智 正常 的 检查 由 assert 语句 执行 。 如 果 检 查 失败 ， 就 会 抛 出 异常 。 在 代码 中 ，assert 
语句 包含 以 下 部 分 : 

。 assert 关键 字 ; 
。 条 件 〈 即 求 值 为 True 或 False 的 表达 式 ); 
。 过 号 ; 
。 当 条 件 为 False 时 显示 的 字符 串 。 
例如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 



























































七 上 









































>>> podBayDoorStatus = 'open' 

>>> assert podBayDoorStatus == 'open', 'The pod bay doors need to be "open".' 
>>> podBayDoorStatus = 'I\'m sorry, Dave. I\'m afraid I can't do that.' 

>>> assert podBayDoorStatus == 'open', 'The pod bay doors need to be "open".' 


Traceback (most recent call last): 
File "<pyshell#10>", line 1, in <module> 
assert podBayDoorStatus == 'open', 'The pod bay doors need to be "open".’' 
AssertionError: The pod bay doors need to be "open". 


这 里 将 podBayDoorStatus 设置 为 '/open'"， 所 以 从 此 以 后 ， 我 们 充分 期 望 这 个 变 
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量 的 值 是 ' open'。 在 使 用 这 个 变量 的 程序 中 ， 基 于 这 个 值 是 open' 的 假定 , 我 们 可 能 
写 下 了 大 量 的 代码 ， 即 这 些 代码 依赖 于 它 是 open'， 才 能 按照 期 望 工作 。 所 以 添加 了 
一 个 断言 ， 确 保 假 定 podBayDoorStatus 是 'open' 是 对 的 。 这 里 ， 我 们 加 入 了 信息 The 
pod bay doors need to be "open".， 这 样 如 果断 言 失败 ， 就 很 容易 看 到 哪里 出 了 错 。 
首 后 ， 假 如 我 们 犯 了 一 个 明显 的 错误 ， 把 另外 的 值 赋 给 podBayDoorStatus， 但 
在 很 多 行 代码 中 ， 我 们 并 没有 意识 到 这 一 点 。 这 个 断言 会 抓 住 这 个 错误 ， 清 楚 地 告 
诉 我 们 出 了 什么 错 。 
在 日 常 英语 中 ，assert 语句 是 说 :“ 我 断言 这 个 条 件 为 真 ， 如 果 不 为 真 ， 程 序 中 什 
么 地 方 就 有 一 个 缺陷 。” 不 像 异常 ， 代 码 不 应 该 用 try 和 except 处 理 assert 语句 。 如 果 
assert 失败 ， 程 序 就 应 该 骨 溃 。 通 过 这 样 的 快速 失败 ， 产 生 缺 陷 和 你 第 一 次 注意 到 该 缺 
陷 之 间 的 时 间 就 缩短 了 。 这 将 减少 为 了 寻找 导致 该 缺陷 的 代码 ， 而 需要 检查 的 代码 量 。 
断言 针对 的 是 程序 员 的 错误 ， 而 不 是 用 户 的 错误 。 对 于 那些 可 以 恢复 的 错误 《诸如 
文件 没有 找到 ， 或 用 户 输入 了 无 效 的 数据 )， 请 抛 出 异常 ， 而 不 是 用 assert 语句 检测 它 。 












































































































































































































































10.3.1 在 交通 灯 模 拟 中 使 用 断言 
假定 你 在 编号 一 个 交通 信号 灯 的 模拟 程序 。 代 表 路 口 信 号 灯 的 数据 结构 是 一 个 

字典 ， 以 ns' 和 'ew' 为 键 ， 分 别 表 示 南 北向 和 东西 向 的 信号 灯 。 这 些 键 的 值 可 以 

是 'green、Yyellow' 或 red' 之 一 。 代 码 看 起 来 可 能 像 这 样 : 


market 2nd = {'ns': 'green', 'ew': 'red'} 
mission_16th = {'ns': 'red', 'ew': 'green'} 






































这 两 个 变量 将 针对 Market 街 和 第 2 街路 口 ， 以 及 Mission 街 和 第 16 街路 口 。 作 
为 项 目 启动 ， 你 希望 编写 一 个 switchLights() 函数 ， 它 接受 一 个 路 口 字 典 作为 参数 ， 
并 切换 红绿灯 。 
开始 你 可 能 认为 ，switchLights() 只 要 将 每 一 种 灯 按 顺序 切换 到 下 一 种 颜色 : 
'green' 值 应 该 切换 到 'yellow'，'yellow' 应 该 切换 到 red'，'red' 应 该 切换 到 'green'。 实 
现 这 个 思想 的 代码 看 起 来 像 这 样 : 


def switchLights(stoplight): 
for key in stoplight.keys(): 












































if stoplight[key] == 'green': 
stoplight[key] = 'yellow' 

elif stoplight[key] == 'yellow': 
stoplight[key] = 'red' 

elif stoplight[key] == 'red': 
stoplight[key] = 'green' 


switchLights (market_2nd) 


余 可 能 已 经 发 现 了 这 段 代码 的 问题 ， 但 假设 你 编写 了 剩 下 的 模拟 代码 ， 有 几 和 干 
行 , 但 没有 注意 到 这 个 问题 。 当 最 后 运行 时 , 程序 没有 崩 演 , 但 虚拟 的 汽车 撞车 了 ! 
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因为 你 已 经 编写 了 剩 下 的 程序 ， 所 以 不 知道 缺陷 在 哪里 。 


也 许 在 模拟 汽车 的 代 








码 中 ， 或 者 在 模拟 司机 的 代码 中 。 可 能 需要 花 几 个 小 时 
switchLights() 函数 。 











追踪 缺陷 ， 才 能 找到 








但 如 果 在 编写 switchLights( 时 ， 你 添加 了 断言 ， 确 保 至 少 一 个 交通 灯 是 红色 ， 














可 能 在 函数 的 底部 添加 这 样 的 代码 : 


assert 'red' in stoplight.values(), 'Neither light is red! ' + st 























Traceback (most recent call last): 
File "carSim.py", line 14, in <module> 
switchLights(market_ 2nd) 
File "carSim.py", line 13, in switchLights 
assert 'red' in stoplight.values(), 'Neither light is red! ' 








r(stoplight) 


有 了 这 个 断言 ， 程 序 就 会 月 总， 并 提供 这 样 的 出 错 信息 : 


+ str(stoplight) 


© AssertionError: Neither light is red! {'ns': 'yellow', 'ew': 'green'} 





























这 里 重要 的 一 行 是 AssertionError@ 。 虽 然 程序 骨 溃 并 非 如 你 所 愿 ， 但 它 马 上 指 











出 了 心智 正常 检查 失败 : 两 个 方向 都 没有 红 灯 ， 这 意味 着 两 个 方向 的 车 都 可 以 走 。 
在 程序 执行 中 尽早 快速 失败 ， 可 以 省 去 将 来 大 量 的 调试 工作 。 


























10.3.2 ”禁用 断言 





在 运行 Python 时 传 入 -O 选项 ， 可 以 禁用 断言 。 如 果 你 已 完成 了 程序 的 编写 和 




















测试 ， 不 希望 执行 心智 正常 检测 ， 从 而 减 慢 程序 的 速度 ， 这 样 就 很 好 〈 尽 管 大 多 数 

















断言 语句 所 花 的 时 间 ， 不 会 让 你 觉察 到 速度 的 差异 )。 断 言 是 针对 开发 的 ， 不 是 针 











对 最 终 产 品 。 当 你 将 程序 交 给 其 他 人 运行 时 ， 它 应 该 没有 缺陷 ， 不 需要 进行 心智 正 


















































常 检查 。 如 何 用 -O 选项 启动 也 许 并 不 疯狂 的 程序 ， 详 细 内 容 请 参考 附录 B。 

















10.4 日 志 
























































如 果 你 曾经 在 代码 中 加 入 printO 语句 ， 在 程序 运行 时 输出 某 些 变量 的 值 ， 你 














就 使 用 了 记 日 志 的 方式 来 调试 代码 。 记 日 志 是 一 种 很 好 的 方式 ， 可 以 理解 程序 中 








发 生 的 事 ， 以 及 事情 发 生 的 顺序 。Python 的 logging 模块 使 得 











你 很 容易 创建 自 定 义 















































的 消息 记录 。 这 些 日 志 消 息 将 描述 程序 执行 何 时 到 达 日 志 函 数 调 用 ， 并 列 出 你 指 
定 的 任何 变量 当时 的 值 。 另 一 方面 ， 缺 失 日 志 信息 表明 有 一 部 分 代码 被 跳 过 ， 从 



























































未 执行 。 


10.4.1 使 用 日 志 模 块 
























































要 局 用 logging 模块 ， 在 程序 运行 时 将 日 志 信 息 显示 在 屏幕 上 ， 请 将 下 面 的 代 














码 复制 到 程序 项 部 (但 在 Python 的 失 行 之 下 ): 
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import logging 
logging.basicConfig(level=logging.DEBUG, format=' %(asctime)s - %(levelname)s 
%(message)s') 


你 不 需要 过 于 担心 它 的 工作 原理 , 但 基本 上 ， 当 Python 记录 一 个 事件 的 日 志 时 ， 
它 会 创建 一 个 LogRecord 对 象 ， 保存 关于 该 事件 的 信息 。logging 模块 的 函数 让 你 
指定 想 看 到 的 这 个 LogRecord 对 象 的 细节 ， 以 及 希望 的 细节 展示 方式 。 

假如 你 编写 了 一 个 函数 ， 计 算 一 个 数 的 阶乘 。 在 数学 上 ，4 的 阶乘 是 
AO le tn ne ed de dd 
文件 编辑 器 窗口 ， 输 入 以 下 代码 。 其 中 有 一 个 缺陷 ， 但 你 也 会 输入 一 些 日 志 信 息 ， 
帮助 你 弄 清楚 哪里 出 了 问题 。 将 该 程序 保存 为 factorialLog.py。 


import logging 

logging.basicConfig(level=logging.DEBUG, format=' %(asctime)s - %(levelname)s 
%(message)s') 

logging.debug('Start of program') 





























































































































Nal 












































def factorial(n): 
logging.debug('Start of factorial(%s%%)' % (n)) 
total = 1 
for i in range(n + 1): 
total *= i 
logging.debug('i is ' + str(i) + ', total is ' + str(total)) 
logging.debug('End of factorial(%s%%)' % (n)) 
return total 


print(factorial(5)) 
logging.debug('End of program') 
这 里 ， 我 们 在 想 打印 日 志 信息 时 ， 使 用 logging.debug( 函数 。 这 个 debug0 函数 
将 调用 basicConfig0， 打 印 一 行 信息 。 这 行 信 息 的 格式 是 我 们 在 basicConfigO 函 数 
中 指定 的 ， 2 debug0 的 消息 。print (factorial (5)) 调用 是 原来 
程序 的 一 部 分 ， 所 以 就 算 禁 用 日 志 信息 ， 结 果 仍 会 显示 。 
这 个 程序 的 输出 就 像 这 文 样 ; 


2015-05-23 16:20:12,664 - DEBUG - Start of program 
2015-05-23 16:20:12,664 - DEBUG - Start of factorial(5) 
















































































2015-05-23 16:20:12,665 - DEBUG - i is 0, total is 0 
2015-05-23 16:20:12,668 - DEBUG - i is 1, total is 0 
2015-05-23 16:20:12,670 - DEBUG - i is 2, total is 0 
2015-05-23 16:20:12,673 - DEBUG - i is 3, total is 0 
2015-05-23 16:20:12,675 - DEBUG - i is 4, total is 0 
2015-05-23 16:20:12,678 - DEBUG - i is 5, total is 0 
2015-05-23 16:20:12,680 - DEBUG - End of factorial(5) 


2015-05-23 16:20:12,684 - DEBUG End of program 


factorial() 函数 返回 0 作为 5 的 阶乘 ， 这 是 不 对 的 。for 循环 应 该 用 从 1 到 5 
的 数 ， 乘 以 total 的 值 。 但 logging.debug0 显示 的 日 志 信 息 表 明 ，i 变量 从 0 开始 ， 
而 不 是 1。 因 为 0 乘 任何 数 都 是 0， 所 以 接 下 来 的 欠 代 中 ，total 的 值 都 是 错 的 。 日 
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志 消 息 提供 了 可 以 追踪 的 痕迹 ， 帮 助 你 弄 清 楚 何 时 事情 开始 不 对 。 
将 代码 行 foriinrange (n+1): 改 为 foriinrange (1, n+1):, 再 
输出 看 起 来 像 这 样 : 


2015-05-23 17:13:40,650 - DEBUG - Start of program 
2015-05-23 17:13:40,651 - DEBUG - Start of factorial(5) 

















次 运行 程序 。 








2015-05-23 17:13:40,651 - DEBUG - i is 1, total is 1 

2015-05-23 17:13:40,654 - DEBUG - is 2, total is 2 

2015-05-23 17:13:40,656 - DEBUG - is 3, total is 6 
4, total is 24 


2015-05-23 17:13:40,661 - DEBUG - is 5, total is 120 


i 

i 
2015-05-23 17:13:40,659 - DEBUG - i is 

i 
2015-05-23 17:13:40,661 - DEBUG - End of factorial(5) 


2015-05-23 17:13:40,666 - DEBUG - End of program 


factorial (5) 调用 正确 地 返回 120。 日 志 消 息 表明 循环 内 发 生 了 什么 ， 这 直接 
指向 了 缺陷 。 

你 可 以 看 到 ，logging.debug0 调用 不 仅 打印 出 了 传递 给 它 的 字符 串 ， 而 且 包含 
一 个 时 间 惟 和 单词 DEBUG。 

























































































10.4.2 不 要 用 print() 调 试 
输入 import logging 和 logging.basicConfig (level=logging.DEBUG, format='% 

(asctime)s - %(levelname)s - %(message)s') 有 一 点 不 方便 。 你 可 能 想 使 用 printO 调用 
代替 ， 但 不 要 屈服 于 这 种 诱惑 ! 在 调试 完成 后 ， 你 需要 花 很 多 时 间 ， 从 代码 中 清除 每 
条 日 志 消 息 的 printO 调用 。 你 甚至 有 可 能 不 小 心 删除 一 些 printO 调用 , 而 它们 不 是 用 
来 产生 日 志 消息 的 。 日 志 消 息 的 好 处 在 于 , 你 可 以 随心 所 欲 地 在 程序 中 想 加 多 少 就 加 
多 少 ， 稍 后 只 要 加 入 一 次 logging.disable (logging.CRITICAL) 调用 ， 就 可 以 禁止 日 
志 。 不 像 print()，logging 模块 使 得 显示 和 隐藏 日 志 信息 之 间 的 切换 变 得 很 容易 。 
志 消 息 是 给 程序 员 的 ， 不 是 给 用 户 的 。 用 户 不 会 因为 你 便于 调试 ， 而 想 看 到 
的 字典 值 的 内 容 。 请 将 日 志 信息 用 于 类 似 这 样 的 目的 。 对 于 用 户 希 望 看 到 的 消息 ， 
例如 “文件 未 找到 ”或 者 “无 效 的 输入 ， 请 输入 一 个 数字 ” 应 该 使 用 printO 调用 。 
我 们 不 希望 禁用 日 志 消 息 之 后 ， 让 用 户 看 不 到 有 用 的 信息 。 
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10.4.3 日 志 级 别 
“日 志 级 别 ” 提 供 了 一 种 方式 ， 按 重要 性 对 日 志 消 息 进 行 分 类 。5 个 日 志 级 别 如 表 
10-1 所 示 ， 从 最 不 重要 到 最 重要 。 利 用 不 同 的 日 志 函 数 ， 消 息 可 以 按 茶 个 级 别 记 入 日 志 。 


表 10-1 Python 中 的 日 志 级 别 


































































































级 别 日 志 函 数 描述 
DEBUG logging.debugO 最 低级 别 。 用 于 小 细节 。 通 常 只 有 在 诊断 间 题 时 ， 你 才 会 关心 这 些 消息 
INFO logging.info() 于 记录 程序 中 一 般 事 件 的 信息 ， 或 确认 一 切 工 作 正 常 
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10.4.4 


级 别 日 志 函 数 描述 































































































WARNING logging.warning() 于 表示 可 能 的 问题 ， 它 不 会 阻止 程序 的 工作 ， 但 将 来 可 能 会 
ERROR logging.error() 于 记录 错误 ， 它 导致 程序 做 某 事 失败 

尹 表示 致命 也 误 ， 它 4 或 将 E FS 全 停止 
CRITICAL Jogging critical0 最 局 级 别 。 用 于 表示 致命 的 错误 ， 它 导致 或 将 致 程序 完全 停止 





l 工作 


志 消 息 作为 一 个 字符 串 , 传递 给 这 些 函 数 。 日 志 级 别 是 一 种 建议 。 归根 到 底 ， 
还 是 由 你 来 决定 日 志 消息 属于 哪 一 种 类 型 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import logging 

>>> logging.basicConfig(level=logging.DEBUG, format=' %(asctime)s - 
%(levelname)s - %(message)s') 

>>> logging.debug('Some debugging details.') 

2015-05-18 19:04:26,901 - DEBUG - Some debugging details. 

>>> logging.info('The logging module is working.') 

2015-05-18 19:04:35,569 - INFO - The logging module is working. 

>>> logging.warning('An error message is about to be logged.') 
2015-05-18 19:04:56,843 - WARNING - An error message is about to be logged. 
>>> logging.error('An error has occurred.') 

2015-05-18 19:05:07,737 - ERROR - An error has occurred. 

>>> logging.critical('The program is unable to recover!') 

2015-05-18 19:05:45,794 - CRITICAL - The program is unable to recover! 


志 级 别 的 好 处 在 于 , 你 可 以 改变 想 看 到 的 日 志 消 息 的 优先 级 。 问 basicConfig0 函 数 
传 入 logging.DEBUG 作为 level 关键 字 参 数 ,这 将 显示 所 有 日 志 级 别 的 消息 (DEBUG 
是 最 低 的 级 别 )。 但 在 开发 了 更 多 的 程序 后 ， 你 可 能 只 对 错误 感 兴趣 。 在 这 种 情况 
下 ， 可 以 将 basicConfig() 的 level 参数 设置 为 logging.ERROR， 这 将 只 显示 ERROR 
和 CRITICAL 消息 ， 跳 过 DEBUG、INFO 和 WARNING 消息 。 






















































































































































































禁用 日 志 





在 调试 完 程序 后 ， 你 可 能 不 希望 所 有 这 些 日 专 消 筷 出 现在 屏幕 上 。 logging. 
disable() 函数 禁用 了 这 些 消息 ， 这 样 就 不 必 进 入 到 程序 中 ， 手 工 删 除 所 有 的 日 志 调 
用 。 只 要 向 logging.disable( 传 入 一 个 日 志 级 别 ， 它 就 会 禁止 该 级 别 和 更 低级 别 的 所 
有 日 志 消 息 。 所 以 ， 如 果 想 要 禁用 所 有 日 志 ， 只 要 在 程序 中 添加 logging. disable 
Clonping CRILICALSY 例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import logging 

>>> logging.basicConfig(level=logging.INFO, format=' %(asctime)s - 
%(levelname)s - %(message)s') 

>>> logging.critical('Critical error! Critical error!') 

2015-05-22 11:10:48,054 - CRITICAL - Critical error! Critical error! 
>>> logging.disable(logging.CRITICAL) 

>>> logging.critical('Critical error! Critical error!') 

>>> logging.error('Error! Error!') 


因为 logging.disable0 将 禁用 它 之 后 的 所 有 消息 , 你 可 能 希望 将 它 添加 到 程序 中 
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接近 import logging 代码 行 的 位 置 。 这 样 就 很 容易 找到 它 ， 根 据 需 要 注释 掉 它 ， 或 
取消 注释 ， 从 而 启用 或 禁用 日 志 消息 。 



































10.4.5 ”将 日 志 记 录 到 文件 
除了 将 日 志 消 息 显 示 在 屏幕 上 ， 还 可 以 将 它们 写 入 文本 文件 。logging.basic 
Config() 函数 接受 filename 关键 字 参 数 ， 像 这 样 : 


import logging 

logging.basicConfig(filename='myProgramLog.txt', level=logging.DEBUG, format=" 

%(asctime)s - %(levelname)s - %(message)s') 

志 信 息 将 被 保存 到 myProgramLog.txt 文件 中 。 虽 然 日 志 消 息 很 有 用 ， 但 它们 

可 能 塞 满 屏 幕 ， 让 上 你 很 难 读 到 程序 的 输出 。 将 日 志 信息 写 入 到 文件 ， 让 屏幕 保持 干 

又 能 保存 信息 ， 这 样 在 运行 程序 后 ， 可 以 阅读 这 些 信息 。 可 以 用 任何 文件 编辑 
器 打开 这 个 文本 文件 ， 诸 如 Notepad 或 TextEdit。 
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10.5 ”IDLE 的 调试 器 


“调试 器 ”是 IDLE 的 一 项 功能 ， 让 你 每 次 执行 一 行程 序 。 调 试 器 将 运行 一 行 代 
码 ， 然后 等 竺 你 告诉 它 继续 。 像 这 样 让 程序 运行 “在 调试 器 之 下 ”， 你 可 以 随便 花 
多 少时 间 ， 检 查 程 序 运行 时 任意 一 个 时 刻 的 变量 的 值 。 对 于 追踪 缺陷 ， 这 是 一 个 很 
有 价值 的 工具 。 

要 启用 IDLE 的 调试 器 ， 就 在 交互 式 环境 窗口 中 点 击 DebugPDebugger。 这 将 打 
开 调 试 控制 (Debug Control) 窗口 ， 如 图 10-1 所 示 。 


3 Debu ele 


区 Stack FF Source 
Go | Step | Over ou| Quit 





































































































区 Locals 厂 Globals 








(None) 


Locals 
None 


10-1 调试 控制 窗口 
182 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 





当 调 试 控制 窗口 出 现 后 , 勾 选 全 部 4 个 复 选 框 : Stack、Locals、Source 和 Globals。 
这 样 窗 口 将 显示 全 部 的 调试 信息 。 调 试 控制 窗口 显示 时 ， 只 要 你 从 文件 编辑 器 运行 程 
序 ， 调 试 器 就 会 在 第 一 条 指令 之 前 暂停 执行 ， 并 显示 下 面 的 信息 : 
。 将 要 执行 的 代码 行 ; 
。 所 有 局 部 变量 及 其 值 的 列表 ; 
。 所 有 全 局 变量 及 其 值 的 列表 。 
你 会 注意 到 ， 在 全 局 变量 列表 中 ， 有 一 些 变量 你 没有 定义 ， 诸 如 _builtins _、 
doc 、_file _ ， 等 等 。 它 们 是 Python 在 运行 程序 时 ， 自 动 设置 的 变量 。 这 些 变 
量 的 含义 超出 了 本 书 的 范围 ， 你 可 以 暂时 忽略 它们 。 
程序 将 保持 暂停 ， 直 到 你 按 下 调试 控制 窗口 的 5 个 按钮 中 的 一 个 : Go、Step、 
Over、Out 或 Quit。 
















































































































































































10.5.1 Go 





点 击 Go 按钮 将 导致 程序 正常 执行 至 终止 ， 或 到 达 一 个 “ 断 点 ”( 断 点 在 本 章 稍 
后 介绍 )。 如 果 你 完成 了 调试 ， 希 望 程序 正常 继续 ， 就 点 击 Go 按钮 。 


























10.5.2 Step 

点 击 Step 按钮 将 导致 调试 器 执行 下 一 行 代码 ， 然 后 再 次 暂停 。 如 果 变 量 的 值 发 
生 了 变化 , 调试 控制 窗口 的 全 局 变量 和 局 部 变量 列表 就 会 更 新 。 如 果 下 一 行 代码 是 一 
个 函数 调用 ， 调 试 器 就 会 “ 步 入 ”那个 函数 ， 跳 到 该 函数 的 第 一 行 代 码 。 
















































































10.5.3 Over 
点 击 Over 按 扭 将 执行 下 一 行 代 码 ， 与 Step 按钮 类 似 。 但 是 ， 如 果 下 一 行 代码 
是 函数 调用 ，Orver 按钮 将 “路 过 ”该 函数 的 代码 。 该 函数 的 代码 将 以 全 速 执行 ， 调 
试 器 将 在 该 函数 返回 后 暂停 。 例 如 ， 如 果 下 一 行 代 码 是 printO 调用 ， 你 实际 上 不 关 
心 内 建 print0 函数 中 的 代码 ， 只 希望 传递 给 它 的 字符 串 打印 在 屏幕 上 。 出 于 这 个 原 
因 ， 使 用 Over 按钮 比 使 用 Step 按钮 更 常见 。 




























































































10.5.4 Out 




















人 


点 击 Out 按钮 将 导致 调试 器 全 速 执行 代码 行 ， 直 到 它 从 当前 函数 返回 。 如 果 你 
j Step 按钮 进入 了 一 个 函数 ， 现 在 只 想 继 续 执 行 指令 ， 直 到 该 函数 返回 ， 那 就 点 击 
Out 按钮 ， 从 当前 的 函数 调用 “走出 来 ” 































































































10.5.5 Quit 
如 果 你 希望 完全 停止 调试 ， 不 必 继 续 执行 剩 下 的 程序 ， 就 点 击 Quit 按钮 。Quite 按 
钮 将 马上 终止 该 程序 。 如 果 你 希望 再 次 正常 运行 你 的 程序 ， 就 再 次 选择 Debug》 Debugger， 
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禁用 调试 器 。 








10.5.6 ”调试 一 个 数字 相 加 的 程序 
打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 : 


print('Enter the first number to add:') 

first = input() 

print('Enter the second number to add:') 
second = input() 

print('Enter the third number to add:') 

third = input() 

print('The sum is ' + first + second + third) 


将 它 保存 为 buggyAddingProgram.py， 不 启用 调试 器 ， 第 一 次 运行 它 。 程 序 的 
输出 像 这 样 : 


Enter the first number to add: 





























5 

Enter the second number to add: 
3 

Enter the third number to add: 
42 


The sum is 5342 

这 个 程序 没有 骨 演 ， 但 求 和 显然 是 错 的 。 让 我 们 启用 调试 控制 窗口 ， 再 次 运行 
它 ， 这 次 在 调试 器 控制 之 下 。 

当 你 按 下 FS 或 选择 RunPRun Module (启用 DebughDebugger, 选中 调试 控制 窗 
口 的 所 有 4 个 复 选 框 )， 程 序 启动 时 将 暂停 在 第 1 行 。 调 试 器 总 是 会 暂停 在 它 将 要 
执行 的 代码 行 上 。 调 试 控制 窗口 看 起 来 如 图 10-2 所 示 。 
仍 ceewe conva 于 Ne) 


| Mv Stack VM Source 
Go | step | Over | Out | Quit| 




























































































S Locals WM Globals 


buoggyAddingProgram py:l: <module>0 





Locals 


Globals 


nodule ‘builtins’ (built-in)> 





_builing « 





doc 


_fle_ buggyAddingProgram.py 
| 














_Joader <ciass frozer_importlib .6uiltinIimporter > 

_rame main 

—package_ None 

_5pec_ None -| 





10-2 程序 第 一 次 在 调试 器 下 运行 时 的 调试 控制 窗口 
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点 击 一 次 Over 按钮 ， 执 行 第 一 





























个 print( 调用 。 这 里 应 该 使 用 Over 按钮 ， 而 不 


| 窗口 将 更 新 到 第 2 行 ， 
告诉 你 程序 当前 执行 到 


是 Step, 因为 你 不 希望 进入 到 print( 函数 的 代码 中 。 调 试探 表 
文件 编辑 器 窗口 的 第 2 行将 高 亮 显 示 ， 如 图 10-3 所 示 。 这 
哪里 。 








EA buggyAddingProgram.py - C:/buggyAddingProgram' py El 





File Edit Format Run pt Windows i 








print('F mber to add:') E> 
print('Enter the second number to add:') 

second = inpat 0 

print('Ente third number to add:') 


third = jinpat 0) 


print('T "+ first + second + third) 





[un: 2|cot: 0 









怪 Debug Control 


Go | Step over| Out| Quit 


buggyAddingProgram.py:2: <module>() 


| Stack” 5 Source 


BS Locals FB Globals 


rbdb' runO, line 431 exec(cmd, globals locals) 
>'_main_‘<module>0, line 2: first = inputO 


Globals 
<module builtins (built-in) > 


None 


CW\W\buggyAddingProgram.py’ 


_loader_ <class frozen_importib BuiltinImporter > 
_name_ 


—package_ 


_main_ 
None 
None 




















一 5pe( 一 


10-3 点击 Over 按钮 后 的 调试 控制 窗口 


再 次 点 击 Over 按钮 ， 执 行 
中 为 inputO 调用 输入 内 容 时 ， 
试 控 制 窗 口 按钮 将 重新 启用 。 








调 





input() 函数 调用 ， 当 IDLE 等 待 你 在 交互 式 环境 窗 
调试 控制 窗口 中 的 按钮 将 被 禁用 。 输 入 5 并 按 回 车 。 








继续 点 击 Over 按钮 ， 输 入 3 和 42 作为 接 下 来 的 两 个 数 ， 直 到 调试 器 位 于 


第 7 行 , 程序 中 最 后 的 print() 




















到 ， 在 全 局 变量 的 部 分 ， 第 
是 整 型 值 。 当 最 后 一 行 执行 时 ， 
这 个 缺陷 。 


用 调试 器 单 步 执行 程序 很 有 用 ， 
你 可 以 使 用 断 点 ， 让 调试 器 做 到 这 一 点 。 








到 它 到 达 特 定 的 代码 行 。 


点 


全 全 


10.5.7 
6 叮 半 点 2 三 


在 一 个 新 的 文件 编辑 





暂停 。 








调用 。 调 试 控制 窗口 








应 该 如 图 10-4 所 示 。 可 以 看 


ee 





些 字符 串 连 接 起 来 ， 而 不 是 加 起 来 ， 导 致 了 








但 也 可 能 很 慢 。 你 常常 希望 程序 正常 运行 ， 直 











可 以 设置 在 特定 的 代码 行 上 ， 当 程序 执行 到 达 该 行 时 ， 它 迫使 调试 器 
器 窗口 中 ， 输 入 以 下 程序 ， 


它 模拟 投掷 1000 次 硬币 。 
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将 它 保 存 为 coinFlip.py。 





buggyAddingProgram.py:7: <module>0 


bdb'.run(), line 431: exec(cmd, globals, locais 








Name —main_ 


_package_None 





一 
或 Debug Control 

WB Stack 克 Source 
Go | Step | Over | Out | Quit 

Fy Locals FM Global 





Is 


Locals 
None 

Globals 
_builtins <module builtins (built-in)> 
_doc_ None 
—file_ CMWNbvggyAddingProgram.py’ 


_loader <class "frozen_importlib.Builtinimporter’> 


i 


-| 


> main_.<module>0, line 7: printCThe sum is73 first + second + third) | 








10-4 在 最 后 一 行 的 调试 控制 窗口 。 


import random 
heads = 0 
for i in range(1, 1001): 
0 if random.randint(0, 1) == 1: 
heads = heads + 1 
if i == 500: 
© print('Halfway done!') 


print('Heads came up ' + str(heads) + ' 


变量 被 设置 为 字 


times. 


) 


符 串 ， 导 致 了 这 个 缺陷 


在 半数 时 间 里 ，random.randint (0，1) 调用 加 将 返回 0， 在 另外 半数 时 间 将 返 





回 1。 这 可 以 用 来 模拟 50/50 的 硬 
程序 时 ， 它 很 快 输出 下 面 的 内 容 : 


Halfway done! 
Heads came up 490 times. 


如 果 启 用 调试 器 运行 这 个 程序 , 就 必须 点 击 几 干 次 Over 按钮 , 程序 才能 结束 。 





投掷 ， 





其 中 1 代表 正面 。 











当 不 用 调试 器 运行 该 











如 果 你 对 程序 执行 到 一 半 时 heads 的 值 感 兴趣 ， 等 1000 次 硬币 投掷 完 500 次 ， 可 





以 在 代码 行 print CHalfway done!) @ 上 设置 断 点 。 要 设置 断 点 ， 








行 代 码 上 点 击 右键 ， 并 选择 Set Breakpoint， 如 图 10-5 所 示 。 
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在 文件 编辑 器 中 该 




















rr 


10-5 设置 断 点 
你 不 会 在 站 语句 上 设置 断 点 ， 因 为 站 语句 会 在 循环 的 每 次 迭代 中 都 执行 。 通 过 
在 过 语句 内 的 代码 上 设置 断 点 ， 调 试 器 就 会 只 在 执行 进入 这 语句 时 才 中 断 。 

















带 有 断 点 的 代码 行 会 在 文件 编辑 器 中 以 黄色 高 亮 显 示 。 如 果 在 调试 器 下 运行 该 程 
序 ， 开 始 它 会 暂停 在 第 一 行 ， 像 平时 一 样 。 但 如 果 点 击 Go， 程 序 将 全 速 运 行 ， 直 
到 设置 了 断 点 的 代码 行 。 然 后 可 以 点 击 Go、Over、Step 或 Out， 正 常 继续。 

如 果 和 希望 清除 断 点 ， 在 文件 编辑 器 中 该 行 代 码 上 点 击 右 键 ， 并 从 菜单 中 选择 
Clear Breakpoint。 黄 色 高 亮 消失 ， 以 后 调试 器 将 不 会 在 该 行 代 码 上 中 断 。 













































































10.6 ”小结 














志和 调试 器 ， 都 是 在 程序 中 发 现 和 预防 缺陷 的 有 用 工具 。 用 

Python 语句 实现 的 断言 ， 是 实现 心智 正常 检查 的 好 方式 。 如 果 必 要 的 条 件 没 有 保持 
为 True， 它 将 尽早 给 出 警告 。 断 言 所 针对 的 错误 ， 是 程序 不 应 该 尝试 恢复 的 ， 而 是 
应 该 快速 失败 。 和 否则 ， 你 应 该 抛 出 异常 。 

异常 可 以 由 try 和 except 语句 捕捉 和 处 理 。logging 模块 是 一 种 很 好 的 方式 ,可 以 
在 运行 时 查看 代码 的 内 部 ， 它 比 使 用 print0 函数 要 方便 得 多 ， 因 为 它 有 不 同 的 日 志 
级 别 ， 并 能 将 日 志 写 入 文本 文件 。 

调试 器 让 你 每 次 单 步 执行 一 行 代码 。 或 者 ， 可 以 用 正常 速度 运行 程序 ， 并 让 
调试 器 暂停 在 设置 了 断 点 的 代码 行 上 。 利 用 调试 器 ， 你 可 以 看 到 程序 在 运行 期 间 ， 
任何 时 候 所 有 变量 的 值 。 

这 些 调 试 工 具 和 技术 将 帮助 你 编写 正确 工作 的 程序 。 不 小 心 在 代码 中 引入 缺 
陷 ， 这 是 不 可 避免 的 ， 不 论 你 有 多 少年 的 编码 经 验 。 











Tl 





断言 、 有 异常 、 :不 






























































































































































10.7 习题 





1. 写 一 条 assert 语句 ， 如 果 变量 spam 是 一 个 小 于 10 的 整数 ， 束 触发 
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AssertionError。 

2. 编写 一 条 assert 语句 ， 如 果 eggs 和 bacon 包含 的 字符 串 彼 此 相同 ， 而 且 不 
论 大 小 写 如 何 ， 就 触发 AssertionError 〈 也 就 是 说 ，"hello 和 'hello' 被 认为 相同 ， 
'goodbye' 和 'GOODbye' 也 被 认为 相同 )。 

3. 编写 一 条 assert 语句 ， 总 是 触发 AssertionError。 

4. 为 了 能 调用 logging.debug()， 程 序 中 必须 加 入 哪 两 行 代码 ? 

5. 为 了 让 logging.debug( 将 日 志 消息 发 送 到 名 为 programLog.txt 的 文件 
序 必须 加 入 哪 两 行 代码 ? 

ee 志 级 别 是 什么 ? 

.你 可 以 加 入 哪 一 行 代码 ， 禁 用 程序 中 所 有 的 日 志 消 息 ? 

8. 显示 同样 的 消息 ， 为 什么 使 用 日 志 消 息 比 使 用 printO 要 好 ? 

9. 调试 控制 窗口 中 的 Step、Over 和 Out 按钮 有 什么 区 别 ? 

10. 在 点 击 调试 控制 窗口 中 的 Go 按钮 后 ， 调 试 器 何 时 会 停 下 来 ? 

11. 什么 是 断 点 ? 

12. 在 IDLE 中 ， 如 何在 一 行 代 码 上 设置 断 点 ? 
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10.8 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 















































调试 硬币 抛 邱 
下 面 程序 的 意图 是 一 个 简单 的 硬币 抛 括 猜测 游戏 。 玩 家 有 两 次 猜测 机 会 〈 这 
是 一 个 简单 的 游戏 )。 但 是 ， 程 序 中 有 一 些 缺 陷 。 让 程序 运行 几 次 ， 找 出 缺陷 ， 使 


确 运 行 


该 程序 能 正确 运行 。 










































































import random 
guess = "!" 
while guess not in ('heads', 'tails'): 
print('Guess the coin toss! Enter heads or tails:') 
guess = input() 
toss = random.randint(0, 1) # 0 is tails, 1 is heads 
if toss == guess: 
print('You got it!') 
else: 
print('Nope! Guess again!') 
guesss = input() 
if toss == guess: 
print('You got it!') 
else: 
print('Nope. You are really bad at this game.') 
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从 Web 抓 取信 息 











少数 可 怕 的 时 候 ， 我 没有 Wi-Fi。 这 时 才 意 识 到 ， 我 在 计 
算 机 上 所 做 的 事 ， 有 多 少 实际 上 是 在 因特网 上 做 的 事 。 完 全 出 
于 习惯 ， 我 会 发 现 自己 尝试 收 邮件 、 阅 读 朋 友 的 推 特 ， 或 回答 
问题 :“ 在 Kurtwood Smith 演 出 1987 年 的 机 械 战 警 之 前 ， 曾 经 
演 过 主角 吗 ? ”， 
因为 计算 机 上 如 此 多 的 工作 都 与 因特网 有 关 , 所 以 如 果 程 序 
能 上 网 就 太 好 了 。“Web 抓 取 ”是 一 个 术语 ， 即 利用 程序 下 载 并 
处 理 来 自 Web 的 内 容 。 例 如 ，Google 运行 了 许多 web 抓 取 程序 ， 对 网 页 进行 索引 ， 
实现 它 的 搜索 引擎 。 在 本 章 中 ， 你 将 学 习 几 个 模块 ， 让 在 Python 中 抓 取 网 页 变 得 很 
容易 。 

webbrowser: 是 Python 自 带 的 ， 打 开 浏览 器 获取 指定 页 面 。 

requests: 从 因特网 上 下 载 文件 和 网 页 。 

Beautiful Soup: 解析 HTML， 即 网 页 编写 的 格式 。 

selenium: 启动 并 控制 一 个 Web 浏览 器 。selenium 能 够 填写 表单 ， 并 模拟 鼠标 
在 这 个 浏览 器 中 点 击 。 






































































































































11.1 项 目 : 利用 webbrowser 模块 的 mapIt.py 


webbrowser 模块 的 open0 函 数 可 以 启动 一 个 新 浏览 器 , 打开 指定 的 URL。 在 交 
互 式 环境 中 输入 以 下 代码 : 


>>> import webbrowser 
>>> webbrowser.open('http://inventwithpython.com/') 


Web 浏览 器 的 选项 卡 将 打开 URL http://inventwithpython.com/。 这 大 概 就 是 
webbrowser 模块 能 做 的 唯一 的 事情 。 既 使 如 此 ，open0 函 数 确实 让 一 些 有 趣 的 事情 成 为 可 
能 。 例 如 ， 将 一 条 街道 的 地 址 拷贝 到 剪贴 板 ， 并 在 Google 地 图 上 打开 它 的 地 图 ， 这 是 很 
繁琐 的 事 。 你 可 以 让 这 个 任务 减少 几 步 ， 写 一 个 简单 的 脚本 ， 利 用 剪贴 板 中 的 内 容 在 浏 
览 器 中 自动 加 载 地 图 。 这 样 ， 你 只 要 将 地 址 拷贝 到 剪贴 板 ， 运 行 该 脚本 ， 地 图 就 会 加 载 。 

你 的 程序 需要 做 到 : 

。 从 命令 行 参数 或 剪贴 板 中 取得 街道 地 址 。 
。 打开 Web 浏览 器 ， 指 问 该 地 址 的 Google 地 图 页 面 。 
这 意味 着 代码 需要 做 下 列 事情 : 
。 从 sys.argv 读 取 命令 行 参数 。 
。 读 取 剪贴 板 内 容 。 
。 调用 webbrowseropenO 函 数 打 开外 部 浏览 器 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 mapItpy。 















































































































































根据 附录 B 中 的 指导 ， 建 立 mapILpy， 这 样 当 你 从 命令 行 运行 它 时 ， 例 如 
C:\> mapit 870 Valencia St，San Francisco，CA 94110 

该 脚本 将 使 用 命令 行 参数 ， 而 不 是 剪贴 板 。 如 果 没 有 命令 行 参数 ， 程 序 就 知道 
要 使 用 剪贴 板 的 内 容 。 
首先 你 需要 弄 清 楚 ， 对 于 指定 的 街道 地 址 ， 要 使 用 怎样 的 URL。 你 在 浏览 器 中 打 
开 http://maps.google.com/ 并 查找 一 个 地 址 时 , 地 址 栏 中 的 URL 看 起 来 就 像 这 样 : https:// 
www.google.com/maps/place/870+Valenciat+St/@37.7590311,-122.4215096, 17z/data= 
!3ml1!4bl!4m2!'3ml!lsOx808f7e3dadc07a37:0xc86b0b2bb93b73d8. 

地 址 就 在 URL 中 ,但 其 中 还 有 许多 附加 的 文本 。 网 站 常常 在 URL 中 添加 额外 
的 数据 ， 帮 助 追 踪 访 问 者 或 定制 网 站 。 但 如 果 你 尝试 使 用 https://www.google. 
com/maps/place/870+Valencia+St+San+Francisco+CA/, 会 发 现 仍 然 可 以 到 达 正 确 的 页 
面 。 所 以 你 的 程序 可 以 设置 为 打开 一 个 浏览 器 ， 访 问 'https://www.google.cony 
maps/place/your_address_string' (其 中 your_address_string 是 想 查 看 地 图 的 地 址 )。 
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第 2 步 : 处 理 命令 行 参数 
让 你 的 代码 看 起 来 像 这 样 : 
#! python3 


# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 

















import webbrowser, sys 
if len(sys.argv) > 1: 
# Get address from command line. 
address = ' '.join(sys.argv[1:1]) 
# TODO: Get address from clipboard. 
在 程序 的 #! 行 之 后 ， 需 要 导入 webbrowser 模块 ， 用 于 加 载 浏览 器 ;导入 sys 模 
块 ， 用 于 读 入 可 能 的 命令 行 参数 。sys.argv 变量 保存 了 程序 的 文件 名 和 命令 行 参 数 
的 列表 。 如 果 这 个 列表 中 不 只 有 文件 名 ， 那 么 len(sys.argv) 的 返回 值 就 会 大 于 1， 这 
意味 着 确实 提供 了 命令 行 参数 。 
命令 行 参数 通常 用 空格 分 隔 , 但 在 这 个 例子 中 , 你 希望 将 所 有 参数 解释 为 一 个 字符 串 。 
因为 sys.argv 是 字符 串 的 列表 ， 所 以 你 可 以 将 它 传递 给 join0 方 法 ， 这 将 返回 一 个 字符 串 。 
你 不 希望 程序 的 名 称 出 现在 这 个 字符 串 中 ， 所 以 不 是 使 用 sys.argv， 而 是 使 用 sys.argv[1:]， 
砍 掉 这 个 数组 的 第 一 个 元 素 。 这 个 表达 式 求 值得 到 的 字符 串 ， 保 存在 address 变量 中 。 
如 果 运 行程 序 时 在 命令 行 中 输入 以 下 内 容 : 
mapit 870 Valencia St, San Francisco, CA 94110 
.…Sys.argv 变量 将 包含 这 样 的 列表 值 : 
['mapIt.py', '870', 'Valencia', 'St, ', 'San', 'Francisco, ', 'CA', '94110'] 


address 变量 将 包含 字符 串 '870 Valencia St San Francisco, CA 94110'。 














































































































































































































第 3 步 : 处 理 草 贴 板 内 容 ， 加 载 浏览 
让 你 的 代码 看 起 来 像 这 样 : 
#! python3 


# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 

















import webbrowser, sys, pyperclip 
if len(sys.argv) > 1: 
# Get address from command line. 
address = ' '.join(sys.argv[1:]) 
else: 
# Get address from clipboard. 
address = pyperclip.paste() 


webbrowser.open('https://www.google.com/maps/place/' + address) 


如 果 没 有 命令 行 参数 ， 程 序 将 假定 地 址 保存 在 剪贴 板 中 。 可 以 用 pyperclip.paste0 取 
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得 剪贴 板 的 内 容 ， 并 将 它 保存 在 名 为 address 的 变量 中 。 最 后 ， 启 动 外 部 浏览 器 访 
问 Google 地 图 的 URL， 调 用 webbrowser.open()。 














虽然 你 写 的 某 些 程序 将 完成 大 型 任务 , 为 你 节 












































表 11-1 不 用 和 利用 maplt.py 取得 地 图 


Ep 
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数 小 时 的 时 间 , 但 使 用 一 个 程序 ， 











在 每 次 执行 一 个 常用 任务 时 节省 几 秒 钟 时 间 ， 比 如 取得 一 个 地 址 的 地 图 , 这 同样 令 人 


满意 。 表 11-1 比较 了 有 mapILpy 和 没有 它 时 ， 显 示 地 图 所 需 的 步骤 。 























手工 取得 地 图 利用 mapltpy 
高 亮 标 记 地 址 高 亮 标记 地 址 
考 贝 地 址 拷贝 地 址 

打开 Web 浏览 器 运行 mapIt.py 


打开 http://maps.google.com/ 
点 击 地 址 文本 字段 
考 贝 地址 

安 回 车 

































































第 4 步 : 类 似 程序 的 想法 





看 到 程序 让 这 个 任务 变 得 不 那么 繁琐 了 吗 ? 





只 要 你 有 一 个 URL，webbrowser 模块 就 让 用 户 不 必 打 开 浏 览 器 , 而 直接 加 载 











个 网 站 。 其 他 程序 可 以 利用 这 项 功能 完成 以 下 任 
。 在 独立 的 浏览 器 标签 中 ， 打 开 一 个 页 面 ， 




















。 用 浏览 器 打开 本 地 天 气 的 URL。 
。 打开 你 经 常 查看 的 几 个 社交 网 站 。 








11.2 用 requests 模块 从 Web 下 载 文件 


requests 模块 让 你 很 容易 从 Web 下 载 文 伯 


























的 所 有 链接 。 





F， 不 必 担 心 一 些 复杂 的 问题 ， 诸 如 网 








络 错误 、 连 接 问题 和 数据 压缩 。requests 模块 不 是 Python 自 带 的 ， 所 以 必须 先 安装 。 
通过 命令 行 ， 运 行 pip install requests (附录 A 详细 介绍 了 如 何 安装 第 三 方 模块 )。 
编写 requests 模块 是 因为 Python 的 urllib2 模块 用 起 来 太 复杂 。 实 际 上 , 请 拿 一 











支 记 号 笔 涂 黑 这 一 段 。 忘 记 我 曾 提 到 urllib2。 如 果 你 需要 从 Web 下 载 东 西 ， 使 用 


requests 模块 就 好 了 。 

















接 下 来 ， 做 一 个 简单 的 测试 ， 确 保 requests 模块 已 经 正确 安装 。 在 交互 式 环境 








中 输入 以 下 代码 : 


>>> import requests 





































































































如 果 没 有 错误 信息 显示 ，requests 模块 就 已 经 安装 成 功 了 。 
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11.2.1 用 requests.get() 函 数 下 载 一 个 网 页 
requests.get(O) 函 数 接受 一 个 要 下 载 的 URL 字符 串 。 通 过 在 requests.get(0) 的 返 忆 
值 上 调用 type0， 你 可 以 看 到 它 返回 一 个 Response 对 象 ， 其 中 包含 了 Web 服务 器 对 
你 的 请 求 做 出 的 响应 。 稍 后 我 将 更 详细 地 解释 Response 对 象 , 但 现在 请 在 交互 式 环 
境 中 输入 以 下 代码 ， 并 保持 计算 机 与 因特网 的 连接 : 


>>> import requests 

© >>> res = requests.get('http://ww.gutenberg.org/cache/epub/1112/pg1112.txt') 
>>> type(res) 

<class 'requests.models.Response'> 

>>> res.status code == requests.codes.ok 

True 

>>> len(res.text) 

178981 

>>> print(res.text[:250]) 

The Project Gutenberg EBook of Romeo and Juliet, by William Shakespeare 















































































































































® 


This eBook is for the use of anyone anywhere at no cost and with 
almost no restrictions whatsoever. You may copy it, give it away or 
re-use it under the terms of the Proje 


该 URL 指向 一 个 文本 页 面 ， 其 中 包含 整 部 罗密欧 与 朱丽叶 ， 它 是 由 古 登 侈 计 
划 @ 提 供 的 。 通过 检查 Response 对 象 的 status_code 属性 , 你 可 以 了 解 对 这 个 网 页 的 
请 求 是 否 成 功 。 如 果 该 值 等 于 requests.codes.ok， 那 么 一 切 都 好 @ (顺便 说 一 下 ，HTTP 
协议 中 “OK” 的 状态 码 是 200。 你 可 能 已 经 熟悉 404 状态 码 ， 它 表示 “ 没 找到 ”)。 
如 果 请 求 成 功 ， 下 载 的 页 面 就 作为 一 个 字符 串 ， 保 存在 Response 对 象 的 text 
变量 中 。 这 个 变量 保存 了 包含 整 部 戏剧 的 一 个 大 字符 串 ， 调 用 len(res.text) 表 明 ， 
它 的 长 度 超过 178000 个 字符 。 最 后 ， 调 用 print(res.text[:250]) 显 示 前 250 个 字符 。 
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11.2.2 ”检查 错误 
正如 你 看 到 的 ，Response 对 象 有 一 个 status_code 属性 ， 可 以 检查 它 是 否 等 了 
requests.codes.ok， 了 解 下 载 是 否 成 功 。 检查 成 功 有 一 种 简单 的 方法 ,就 是 在 Response 
对 象 上 调用 raise_for_status0 方 法 。 如 果 下 载 文件 出 错 ， 这 将 抛 出 异常 。 如 果 下 载 成 
功 ， 就 什么 也 不 做 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> res = requests.get('http://inventwithpython.com/page that does not exist') 
>>> res.raise for status() 
Traceback (most recent call last): 
File "<pyshell#138>", line 1, in <module> 
res.raise for status() 
File "C:\Python34\lib\site-packages\requests\models.py", line 773, in raise for status 
raise HTTPError(http error msg, response=self) 
requests.exceptions.HTTPError: 404 Client Error: Not Found 


raise_for_ status(0) 方 法 是 一 种 很 好 的 方式 ， 确 保 程序 在 下 载 失败 时 停止 。 这 是 
件 好 事 : 你 希望 程序 在 发 生 未 预期 的 错误 时 ， 马 上 停止 。 如 果 下 载 失 败 对 程序 来 说 
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不 够 严重 ， 可 以 用 try 和 except 语句 将 raise_for_status0 代 码 行 包 庄 起 来 ， 处 理 
jb 下 Ly VE 
普 误 ， 不 让 程序 衣 溃 。 
import requests 
res = requests.get('http://inventwithpython.com/page that does not exist ') 
try: 
res.raise for status() 
except Exception as exc: 
print('There was a problem: %s' % (exc)) 


这 次 raise_for_status0 方 法 调用 导致 程序 输出 以 下 内 容 : 


托 









































There was a problem: 404 Client Error: Not Found 


总 是 在 调用 requests.get0 之 后 再 调用 raise_for_status()。 你 希望 确保 下 载 确实 成 
功 ， 然 后 再 让 程序 继续 。 







































































11.3 将 下 载 的 文件 保存 到 硬盘 


现在 ,可 以 用 标准 的 open0 函 数 和 write() 方 法 ， 将 Web 页 面 保存 到 硬盘 中 的 
个 文件 。 但 是 ， 这 里 稍稍 有 一 点 不 同 。 首 先 ， 必 须 用 “ 写 二 进 制 ” 模 式 打 开 该 文件 ， 
即 向 函数 传 入 字符 串 'wb'， 作 为 open0 的 第 二 参数 。 即 使 该 页 面 是 纯 文本 的 《例如 
前 面 下载 的 罗密欧 与 朱丽叶 的 文本 )， 你 也 需要 写 入 二 进 制 数据 ， 而 不 是 文本 数据 ， 
目的 是 为 了 保存 该 文本 中 的 “Unicode 编码 。 















































































































































Unicode 编码 

Unicode 编码 超出 了 本 书 的 范围 ， 但 你 可 以 通过 以 下 网 页 了 解 更 多 的 相关 内 容 : 

e Joel on Software: The Absolute Minimum Every Software Developer 
Absolutely, Positively Must Know About Unicode and Character Sets (No 
Excuses!): http:/wwwjoelonsoftware.com/articles/Unicode.html 

e Pragmatic Unicode: http:/medbatchelder.com/text/unipain.html 


为 了 将 Web 页 面 写 入 到 一 个 文件 ， 可 以 使 用 for 循环 和 Response 对 象 的 


iter_content( 方 法 。 





>>> import requests 
>>> res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt') 
>>> res.raise for status() 
>>> playFile = open('RomeoAndJuliet.txt', 'wb') 
>>> for chunk in res.iter content(100000): 
playFile.write(chunk) 


100000 
78981 
>>> playFile.close() 


iter_content() 方 法 在 循环 的 每 次 迭代 


























说 


一 段 内 容 。 每 一 段 都 是 bytes 数据 
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类 型 ， 你 需要 指定 一 段 包含 多 少 字 节 。10 万 字 节 通常 是 不 错 的 选择 , 所 以 将 100000 


作为 参数 传递 给 iter_content(。 





文件 RomeoAndJuliettxt 将 存在 于 当前 
日 在 你 的 硬盘 上 ， 该 文 伯 





名 是 pg1112.txt， 

















工作 目录 。 请 

















页 内 容 。 一 旦 网 页 下 载 后 ， 它 就 只 是 程序 
的 所 有 数据 仍然 会 在 








特 网 连接 ， 该 页 
write() 方 法 返回 一 个 数字 ， 

















包含 100000 个 字 节 ， 文 件 剩 下 的 部 分 只 需要 78981 
可 顾 一 下 ， 下 载 并 保存 到 文件 世 


























1. 调用 requests.getO 下 载 
































尔 的 计生 











注意 ， 虽 然 在 网 站 上 文件 



































F 的 名 字 不 同 。requests 模块 只 处 理 下 载 网 
的 数据 。 即 使 在 下 载 该 网 页 后 断 开 了 因 





表示 写 入 文件 的 字 节 数 。 在 前 面 的 例子 中 ， 第 一 段 














该 文件 














完整 过 程 如 下 : 


i 


个 子 HH。 

















2. 用 'wb' 调 用 open0， 以 写 二 进 制 的 方式 打开 一 个 新 文件 。 








3. 利用 Respose 对 象 的 iter_content0 方 法 做 循环 。 
4. 在 每 次 迭代 中 调用 write(O)， 









































5. 调 





























11.4 HTML 
在 你 拆 解 网 页 之 前 ， 


BE 
需要 





| close0 关 闭 该 文件 。 

这 就 是 关于 requests 模块 的 全 部 内 容 ! 相对 了 
close0 工 作 步 又，for 循环 和 iter_content() 的 部 分 可 能 看 
确保 requests 模块 即使 在 下 载 巨大 的 文件 时 也 不 会 消耗 太 多 内 存 。 你 可 以 访问 


http://requests.readthedocs.org/， 了 解 requests 模块 的 其 他 功能 。 








学 习 一 些 HTML 的 基本 知识 。 


























各 内 容 写 入 该 文件 。 



























































Web 浏览 器 的 强大 开发 者 工具 ， 它 们 使 得 从 Web 抓 取 信息 更 容易 。 








11.4.1 学 习 HTML 的 资源 








一 些 基 本 经 验 ， 但 如 果 你 需要 


超 文 本 标记 语言 (HIML ) 是 编 


























初学 者 指南 ， 我 

















e http://htmldog.com/guides/html/beginner/ 
e http:/www.codecademy.com/tracks/web/ 


e https://developer.mozilla.org/en-US/earn/html/ 


11.4.2 ”快速 复习 
假定 你 有 一 段 时 间 没 有 看 















































过 HTML 了 ， 这 上 





号 Web 页 面 的 格式 。 本 章 假定 你 对 HTML 有 
荐 以 下 站 点 : 


文件 是 一 个 纯 文本 文件 ， 带 有 .html 文件 扩展 名 。 这 种 文件 中 的 文本 被 “标签 ” 














标签 是 尖 括 号 包围 的 单词 。 标 签 告诉 浏览 器 以 怎样 的 格式 显示 该 页 面 。 






































签 和 一 个 结束 标签 可 以 包围 





= 








你 也 会 看 到 如 何 利用 


F 写 入 文本 文件 的 openO/writeO/ 
起 来 比较 复杂 ， 但 这 是 为 了 








有 是 对 基本 知识 的 快速 复习 。HTML 


环绕 ， 

















于 始 标 


段 文 本 ， 形 成 一 个 “元 素 ”"。“ 文 本”( 或 “内 部 的 
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HTML2”) 是 在 开始 标签 和 结束 标签 之 间 的 内 容 。 例 如 ， 下 面 的 HTML 在 浏览 器 





























显示 Hello world!， 其 中 Hello 用 粗 体 显示 。 


<strong>Hello</strong> world! 


这 段 HTML 在 浏览 器 中 看 起 来 如 图 11-1 所 示 。 


7 











index.htm 


4 CC [filey//C:/index.html 


Hello world! 





11-1 浏览 器 泻 染 的 Hello world! 


于 始 标签 <strong> 表 明 ， 标 签 包 围 的 文本 将 使 用 粗 体 。 结 束 标签 </strong> 告 诉 
浏览 器 ， 粗 体 文 本 到 此 结束 。 


HTML 中 有 许多 个 同 的 标签 。 有 一 些 标签 具有 额外 的 特性 ， 在 尖 括 号 廊 以 “ 属 






































性 ”的 方式 展现 。 例 如 ，<a> 标 签 包含 一 段 文本 ， 它 应 该 是 一 个 链接 。 这 段 文 本 链 
接 的 URL 是 由 href 属性 确定 的 。 下 面 是 一 个 例子 : 


Al's free <a href="http://inventwithpython.com">Python books</a>. 


这 段 HTML 在 浏览 器 中 看 起 来 如 图 11-2 所 示 。 


index.htm 






































所 CC [filey//C/index.html 


Al's free Python books. 





图 11-2 浏览 器 中 泻 染 的 链接 


某 些 元 素 具 有 id 属性 ,可 以 用 来 在 页 面 上 唯一 地 确定 该 元 素 。 你 常常 会 告诉 程 
序 ， 根 据 元 素 的 id 属性 来 寻找 它 。 所 以 利用 浏览 器 的 开发 者 工具 ， 弄 清楚 元 素 的 id 


属性 


症 | 芋 ， 这 是 编写 Web 抓 取 程 序 常见 的 任务 。 























































































































11.4.3 ”查看 网 页 的 HTML 源 代码 
对 于 程序 要 处 理 的 网 页 ， 你 需要 查看 它 的 HTML 源 代码 。 要 做 到 这 一 点 ， 在 浏 
览 器 的 任意 网 页 上 点 击 右键 (或 在 OSX 上 Cul- 反击 ) 选择 View Source 或 View page 


source， 查 看 该 页 的 HIML 文本 (参见 图 11-3)。 这 是 浏览 器 实际 接收 到 的 文本 。 
浏览 器 知道 如 何 通过 这 个 HTML 显示 或 泻 染 网 页 。 
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toolboox-on-steroids.” 


一 Alexis Sukrieh, creal 


JavaScript for Kids is a Perl Dancer 


s || lighthearted introduction to 
the JavaScript language 
and prog 


general Back 


Reload 


ER Android 
Internals Internal Save as... 
complet' 

the sect 


Android Translate to English 


Print... 
View page source 
View page info 


© AdBlock » 
回 Search Page on TinEye 


Inspect element 


0 No No Starch Press 2 © view-sourcewwwno x 忆 9 


CC [view-sourcewww.nostarch.com 
html xmins="http://www.w3.0rg/1999/xhtml" lang="en" xml:lang="en"> 


/> 


“Nearly every Ruby expe 
henpfit fom knowing so 


oads of Art.” 


nder a Microsca 
yht for language 


lentation geeks.” 
r Cooper, Editor 
Inside and Ruby 


calls Survive! Il 


Iman Body “a delll 


h Press - New Books"™" 


No Starch Press - C 








‘ipt type="text/javascript" src=", i files/ js/is_i 68 al99a03427a0b7d06b6c5460bcie7 


oming Soon" 


21s"> 





pt> 
个 | <script type="text/javascript"> 
7| <!--//--><! [CDATA[//>2<!-— 


11-3 查看 网 页 的 源 代 码 





我 强烈 建议 你 查看 一 些 自己 喜欢 的 网 站 的 HTML 源 代 码 。 在 查看 源 代码 时 ， 如 果 你 
不 能 完全 理解 , 也 没有 关系 。 你 不 需要 完全 掌握 HIML, 也 能 编写 简单 的 Web 抓 取 程序 ， 
毕竟 你 不 是 要 编写 自己 的 网 站 。 只 需要 足够 的 知识 ， 就 能 从 已 有 的 网 站 中 挑选 数据 。 


























11.4.4 ”打开 浏览 器 的 开发 者 工具 


除了 查看 网 页 的 源 代 码 ， 你 还 可 以 利用 浏览 器 的 开发 者 工具 ， 来 检查 页 面 的 











HTML。 在 Windows 版 的 Chrome 和 下 中 , 开发 者 工具 已 经 安装 了 。 可 以 按 下 Fl12， 


让 它们 出 现 (参见 图 11-4)。 再 次 按 下 F12， 可 以 让 开发 者 工具 消失 。 在 Chrome 中 ， 








也 可 以 选择 ViewP DeveloperP Developer Tools， 调 出 开发 者 工具 。 在 OS X 中 按 下 路 - 





Option-I， 将 打开 Chrome 的 开发 者 工具 。 





对 于 Firefox， 可 以 在 Windows 和 Linux 中 需要 按 下 Ctrl-Shift-C， 或 在 OS X 中 按 
下 器 -option-C， 调 出 开发 者 工具 查看 器 。 它 的 布局 几乎 与 Chrome 的 开发 者 工具 一 样 。 
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Ml developers an inside PT JavaScript for Kidsis a 
hands-on look at Rubys ,FOR Kips || lighthearted introduction to 
# core, using simple | the JavaScript language 
Ss Ess 于 一 diagrams coupled with | and programming in 
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i Spaceships, orbital 
outposts, and new Android Security Android Security 
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Not Mod 


加 facebook i 304 Www.nostarc... 


image/,.. 
ult/file: Not Mod 








30 requests 16.4 KB transterred 13.48s (load: 3.49s, DOMContentLoaded: 2.20 5) 
11-4 ” Chrome 浏览 器 中 的 开发 者 工具 窗口 


在 Safari 中 ， 打 开 Preferences 窗口 ， 并 在 Advanced pane 选中 Show Develop menu 
in the menu bar 选项 。 在 它 启 用 后 ， 你 可 以 按 下 中 -option-I， 调 出 开发 者 工具 。 

在 浏 览 器 中 启用 或 安装 了 开发 者 工 J 具 之 后 ， 可 以 在 网 页 中 任何 部 分 点 击 右键 ， 
在 弹出 菜单 中 选择 Inspect Element， 查 看 页 面 中 这 一 部 分 对 应 的 HTML。 如 果 需 要 
在 Web 抓 取 程 序 中 解析 HIML， 这 很 有 帮助 。 


不 要 用 正则 表达 式 来 解析 HTML 
在 一 个 字符 串 中 定位 特定 的 一 段 HTML， 这 似乎 很 适合 使 用 正则 表达 式 。 但 
是 ， 我 建议 你 不 要 这 么 做 。HTML 的 格式 可 以 有 许多 不 同 的 方式 ， 并 上 且 仍然 被 认 
为 是 有 效 的 HTML, 但 尝试 用 正则 表达 式 来 捕 提 所 有 这 些 可 能 的 变化 ,将 非常 繁 
琐 ， 并 且 容 易 出 错 。 专 门 用 于 解析 HTML 的 模块 ， 诸 如 Beautiful Soup， 将 更 不 容 
易 导 致 缺陷 。 在 http:/Nstackoverflow.com/a/1732454/1893164/， 你 会 看 到 更 充分 的 
讨论 ， 了 解 为 什么 不 应 该 用 正则 表达 式 来 解析 HTML。 



































11.4.5 ”使 用 开发 者 工具 来 寻找 HTML 元 素 
程序 利用 requests 模块 下载 了 一 个 网 页 之 后 ， 你 会 得 到 该 页 的 HTML 内 容 ， 作 为 一 
个 字符 囊 值 。 现在 你 需要 弄 清楚 , 这 段 HTML 的 哪个 部 分 对 应 于 网 页 上 你 感 兴趣 的 信息 。 
这 就 是 可 以 利用 浏览 器 的 开发 者 工具 的 地 方 。 假 定 你 需要 编写 一 个 程序 ， 从 
http:/weathergov/ 获 取 天 气 预报 数据 。 在 写 代 码 之 前 ， 先 做 一 点 调查 。 如 果 你 访问 该 网 
站 ， 并 查找 邮政 编码 94105， 该 网 站 将 打开 一 个 页 面 ， 显 示 该 地 区 的 天 气 预报 。 
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如 果 你 想 抓 取 那 个 邮政 编码 对 应 的 气温 信息 ， 怎 么 办 ? 右键 点 击 它 在 页 面 的 位 
置 (或 在 OS X 上 用 Control- 点 击 )， 在 弹出 的 瑟 单 中 选择 Inspect Element。 这 将 打 
开 开发 者 工具 窗口 , 其 中 显示 产生 这 部 分 网 页 的 HTML。 图 11-5 展示 了 开发 者 工具 
打开 显示 气温 的 HTML。 
































® 7-Day Forecast forl x 


未: NATIONAL WEATHER SERVICE 


FORECAST PAST WEATHER WEATHER SAFETY NFORMATION CENTER NEW5 EARCH ABOUT 


OuBTOM/NOrs 


4 





11-5 用 开发 者 工具 查看 包含 温度 文本 的 元 素 




















通过 开发 者 工具 , 可 以 看 到 网 页 中 负责 气温 部 分 的 HTML 是 <p class= "myforecast- 
current-lrg">57°F</p>。 这 正 是 你 要 找 的 东西 ! 看 起 来 气温 信息 包含 在 一 个 <p> 元 素 
中 ， 带 有 myforecast-current-lrg 类 。 既 然 你 知道 了 要 找 的 是 什么 ，BeautifulSoup 模 
块 就 可 以 帮助 你 在 这 个 字符 串 中 找到 它 。 

















11.5 用 了 BeautifulSoup 模块 解析 HTML 
Beautiful Soup 是 一 个 模块 ， 用 于 从 HTML 页 面 中 提取 信息 (用 于 这 个 目的 时 ， 


它 比 正则 表达 式 好 很 多 )。BeautifulSoup 模块 的 名 称 是 bs4 (表示 Beautiful Soup， 
第 4 版 )。 要 安装 它 ， 需 要 在 命令 行 中 运行 pip install beautifulsoup4 (关于 安装 第 三 
方 模块 的 指导 ， 请 查看 附录 A)。 虽 然 安 装 时 使 用 的 名 字 是 beautifulsoup4， 但 要 导 
入 它 ， 就 使 用 import bs4。 

在 本 章 中 ，Beautiful Soup 的 例子 将 解析 《〈 即 分 析 并 确定 其 中 的 一 些 部 分 ) 硬盘 
上 的 一 个 HTML 文件 。 在 IDLE 中 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 
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保存 为 example.html。 或 者 ， 从 http://nostarch.com/automatestuff/ 下 载 它 。 


<!-- This is the example.html example file. --> 


<html><head><title>The Website Title</title></head> 

<body> 

<p>Download my <strong>Python</strong> book from <a href="http:// 
inventwithpython.com">my website</a>.</p> 

<p class="slogan">Learn Python the easy way!</p> 

<p>By <span id="author">Al Sweigart</span></p> 

</body></html> 


你 可 以 看 到 ， 既 使 一 个 简单 的 HTML 文件 ， 也 包含 许多 不 同 的 标签 和 属性 。 对 


于 复杂 的 网 站 ， 事 情 很 快 就 变 得 令 人 困惑 。 好 在 ，Beautiful Soup 让 人 处理 HTML 变 
得 容易 很 多 。 


















































11.5.1 从 HTML 创建 一 个 BeautifulSoup 对 象 
bs4.BeautifulSoup0 函 数 调 用 时 需要 一 个 字符 串 ， 其 中 包含 将 要 解析 的 HTML。 
bs4.BeautifulSoupO 函 数 返 回 一 个 BeautifulSoup 对 象 。 在 交互 式 环境 中 输入 以 下 代 
码 ， 同 时 保持 计算 机 与 因特网 的 连接 ; 


>>> import requests, bs4 

>>> res = requests.get('http://nostarch.com') 
>>> res.raise for status() 

>>> noStarchSoup = bs4.BeautifulSoup(res.text) 
>>> type(noStarchSoup) 

<class 'bs4.BeautifulSoup'> 


























这 段 代码 利用 requests.get0 函 数 从 No Starch Press 网 站 下 载 主页 ， 然 后 将 响应 
吉 果 的 text 属性 传递 给 bs4.BeautifulSoup()。 它 返回 的 BeautifulSoup 对 象 保存 在 变 
noStarchSoup 中 。 
也 可 以 向 bs4.BeautifulSoup0 传 递 一 个 File 对 象 , 从 硬盘 加 载 一 个 HTML 文件 。 
在 交互 式 环境 中 输入 以 下 代码 (确保 example.html 文件 在 工作 目录 中 ): 


>>> exampleFile = open('example.html') 
>>> exampleSoup = bs4.BeautifulSoup (exampleFile) 


>>> type (exampleSoup) 
<class 'bs4.BeautifulSoup'> 


有 了 BeautifulSoup 对 象 之 后 , 就 可 以 利用 它 的 方法 , 定位 HTML 文档 中 的 特定 部 分 。 
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11.5.2 ”用 select() 方 法 寻找 元 素 
针对 你 要 寻找 的 元 素 , 调用 method() 方 法 , 传 入 一 个 字符 串 作为 CSS “选择 器 ”， 
这 样 就 可 以 取得 Web 页 面 元 素 。 选 择 器 就 像 正 则 表达 式 : 它们 指定 了 要 寻找 的 模 
式 ， 在 这 个 例子 中 ， 是 在 HTML 页 面 中 寻找 ， 而 不 是 普通 的 文本 字符 串 。 
完整 地 讨论 CSS 选择 器 的 语法 超出 了 本 书 的 范围 (在 http://nostarch.com/ 


automatestuff/ 的 资源 中 ， 有 很 好 的 选择 器 指南 )， 但 这 里 有 一 份 选择 器 的 简单 介绍 。 
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表 11-2 举例 展示 了 大 多 数 常用 CSS 选择 器 的 模式 。 
表 11-2 CSS 选择 器 的 例子 


































































































传递 给 select() 方 法 的 选择 器 将 匹配 ..… 

soup.select('div') 所 有 名 为 <div> 的 元 素 

soup.select('#author') 带 有 id 属性 为 author 的 元 素 

soup.select('.notice') 所 有 使 用 CSS class 属性 名 为 notice 的 元 素 

soup.select('div span') 所 有 在 <div> 元 素 之 内 的 <span> 元 素 

soup.select('div > span') 所 有 直接 在 <div> 元 素 之 内 的 <span> 元 素 ， 中 间 没 有 其 他 元 素 
Soup.select(input[name]) 所 有 名 为 <input>， 并 有 一 个 name 属性， 其 值 无 所 谓 的 元 素 
soup.select('input[type="button"]') 所 有 名 为 <input>， 并 有 一 个 type 属性 ， 其 值 为 button 的 元 素 














不 同 的 选择 器 模式 可 以 组 合 起 来 , 形成 复杂 的 匹配 。 例如 ,soup.select('p #author') 
将 匹配 所 有 id 属性 为 author 的 元 素 ， 只 要 它 也 在 一 个 <p> 元 素 之 内 。 

select() 方 法 将 返回 一 个 Tag 对 象 的 列表 ， 这 是 Beautiful Soup 表示 一 个 HTML 
元 素 的 方式 。 针 对 BeautifulSoup 对 象 中 的 HTML 的 每 次 匹配 , 列表 中 都 有 一 个 Tag 
对 象 。Tag 值 可 以 传递 给 str0 函 数 ， 显 示 它 们 代表 的 HTML 标签 。Tag 值 也 可 以 有 
attrs 属性 ， 它 将 该 Tag 的 所 有 HTML 属性 作为 一 个 字典 。 利 用 前 面 的 example.html 
文件 ， 在 交互 式 环境 中 输入 以 下 代码 : 
>>> import bs4 
>>> exampleFile = open('example.html') 
>>> exampleSoup = bs4.BeautifulSoup(exampleFile.read()) 
>>> elems = exampleSoup.select('#author') 
>>> type(elems) 
<class 'list'> 
>>> len(elems) 

1 

>>> type(elems[0]) 

<class 'bs4.element.Tag'> 

>>> elems[0] .getText() 

'Al Sweigart 

>>> str(elems[0]) 

"<Span id="author">Al Sweigart</span>' 
>>> elems[0] .attrs 

{'id': 'author'} 

这 段 代码 将 带 有 id="author" 的 元 素 ， 从 示例 HTML 中 找 出 来 。 我 们 使 用 
select(#author”) 返 回 一 个 列表 ， 其 中 包含 所 有 带 有 id="author" 的 元 素 。 我 们 将 这 个 
Tag 对 象 的 列表 保存 在 变量 中 elems，len(elems) 告 诉 我 们 列表 中 只 有 一 个 Tag 对 象 ， 
只 有 一 次 匹配 。 在 该 元 素 上 调用 getText0 方 法 , 返回 该 元 素 的 文本 ,或 内 部 的 HTML。 
一 个 元 素 的 文本 是 在 开始 和 结束 标签 之 间 的 内 容 : 在 这 个 例子 中 , 就 是 'Al Sweigart'。 

将 该 元 素 传递 给 str0， 这 将 返回 一 个 字符 串 ， 其 中 包含 开始 和 结束 标签 ， 以 及 该 元 
素 的 文本 。 最 后 , attrs 给 了 我 们 一 个 字典 , 包含 该 元 素 的 属性 id', 以 及 id 属性 的 值 author。 

也 可 以 从 BeautifulSoup 对 象 中 找 出 <p> 元 素 。 在 交互 式 环 境 中 输入 以 下 代码 : 
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>>> pElems = exampleSoup.select('p') 

>>> str(pElems[0]) 

'<p>Download my <strong>Python</strong> book from <a href="http:// 
inventwithpython.com">my website</a>.</p>' 

>>> pElems[0] .getText() 

'Download my Python book from my Website.， 

>>> str(pElems[1]) 

"<p class="slogan">Learn Python the easy way!</p>' 
>>> pElems[1] .getText() 

"Learn Python the easy way!' 

>>> str(pElems[2]) 

“<p>By <span id="author">Al Sweigart</span></p>" 
>>> pElems[2] .getText() 

"By Al Sweigart 


这 一 次 ，selectO 给 我 们 一 个 列表 ， 包 含 3 次 匹配 ， 我 们 将 它 保存 在 pElems 中 。 
在 pElems[0]、pElems[1] 和 pElems[2] 上 使 用 sttr0， 将 每 个 元 素 显示 为 一 个 字符 串 ， 
并 在 每 个 元 素 上 使 用 getText0， 显 示 它 的 文本 。 












































11.5.3 ”通过 元 素 的 属性 获取 数据 
Tag 对 象 的 get0 方 法 让 我 们 很 容易 从 元 素 中 获取 属性 值 。 向 该 方法 传 入 一 个 属性 名 
称 的 字符 串 ， 它 将 返回 该 属性 的 值 。 利 用 example.html， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import bs4 

>>> soup = bs4.BeautifulSoup(open('example.html')) 
>>> spanElem = soup.select('span')[0] 

>>> str(spanElem) 

'<span id="author">Al Sweigart</span>' 

>>> spanElem.get('id') 

"author 

>>> spanElem.get('some nonexistent addr') == None 
True 

>>> spanElem.attrs 

{'id': 'author'} 


这 里 ,我 们 使 用 select0 来 寻找 所 有 <span> 元 素 ， 然 后 将 第 一 个 匹配 的 元 素 保存 
在 spanElem 中 。 将 属性 名 'id' 传 递 给 get0， 返 回 该 属性 的 值 'author'。 





























































































































11.6 项 目 : Im Feeling Lucky"Google 查找 


每 次 我 在 Google 上 搜索 一 个 主题 时 ， 都 不 会 一 次 只 看 一 个 搜索 结果 。 通 过 鼠 
标 中 键 点 击 搜索 结果 链接 ， 或 在 点 击 时 按 住 CTRL 键 ， 我 会 在 一 些 新 的 选项 卡 中 打 
开 前 几 个 链接 , 稍 后 再 来 查看 。 我 经 常 搜索 Google， 所 以 这 个 工作 流程 ( 开 浏 览 器 ， 
查找 一 个 主题 ， 依 次 用 中 键 点 击 几 个 链接 ) 变 得 很 乏味 。 如 果 我 只 要 在 命令 行 中 输 
入 查找 主题 ， 就 能 让 计算 机 自动 打开 浏览 器 ， 并 在 新 的 选项 卡 中 显示 前 面 几 项 查询 
结果 ， 那 就 太 好 了 。 让 我 们 写 一 个 脚本 来 完成 这 件 事 

下 面 是 程序 要 做 的 事 : 
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。 从 命令 行 参数 中 获取 查询 关键 字 。 

。 取得 查询 结果 页 面 。 

。 为 每 个 结果 打开 一 个 浏览 器 选项 卡 。 
这 意味 着 代码 需要 完成 以 下 工作 : 

。 从 sys.argv 中 读 取 命令 行 参数 。 

。 用 requests 模块 取得 查询 结果 页 面 。 

。 找到 每 个 查询 结果 的 链接 。 













































































。 调用 webbrowseropenO 函 数 打 开 Web 浏览 器 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 lucky.py。 




















第 1 步 : 获取 命令 行 参数 ， 并 请 求 查找 页 面 
































开始 编码 之 前 ， 你 首先 要 知道 查找 结果 页 



































看 的 URL。 在 进行 Google 查找 后 ， 你 
看 浏览 器 地 址 栏 ， 就 会 发 现 结果 页 面 的 URL 类 似 于 https://www.google.com/ 








search?7q=SEARCH_TERM_HERE 。requests 模块 可 以 下 载 这 个 页 面 ， 然 后 可 以 用 
Beautiful Soup， 找 到 HTML 中 的 查询 结果 的 链接 。 最 后 ， 用 webbrowser 模块 ， 在 浏 








览 器 选项 卡 中 打开 这 些 链接 。 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# lucky.py - Opens several Google search results. 








import requests, sys, webbrowser, bs4 





























print('Googling...') # display text while downloading the Google page 


res = requests.get('http://google.com/search?q=" + ， 


res.raise for status() 
# TODO: Retrieve top search result links. 


# TODO: Open a browser tab for each result. 

















串 ， 保 存在 sys.argv 列表 中 。 





第 2 步 : 找到 所 有 的 结果 





现在 你 需要 使 用 Beautiful Soup， 从 下 载 的 HTML 中 , 提取 排名 靠 前 的 查找 结果 链 
接 。 但 如 何 知 道 完成 这 项 工作 需要 怎样 的 选择 器 ? 例如 ， 你 不 能 只 查找 所 有 的 <a> 标 





'.join(sys.argv[1:1])) 


用 户 运 行 该 程序 时 ， 将 通过 命令 行 参数 指定 查找 的 主题 。 这 些 参 数 将 作为 字符 











签 ， 因 为 在 这 个 HTML 中 ， 有 许多 链接 你 是 不 关心 的 。 因 此 ， 必 须 用 浏览 器 的 开发 者 





























工具 来 检查 这 个 查找 结果 页 面 ， 尝 试 寻找 一 个 选择 器 ， 它 将 挑选 出 你 想 要 的 链接 。 





























在 针对 Beautiful Soup 进行 Google 查询 后 ， 
查看 该 页 面 上 的 一 些 链接 元 素 。 它 们 看 起 来 复杂 得 难以 置信 ， 大 概 像 这 样 : <a 





























你 可 以 打开 浏览 器 的 开发 者 工具 ， 





























href="/url?sa=t&amp;rct=]j&amp;q=&amp;esrc=s&amp;source=web&amp;cd=1&amp; 
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cad=rja&amp;uact=8&amp;ved=0CCgQF]JAA&amp;url=http%3A%2F%2Fwww.crumm 
y.com%2Fsoftware%2FBeautifulSoup%2F&amp;ei=LHBVU_XDD9KVyAShmYDwCw 
&amp;usg=AFQJCNHAxwplurFOBqgScehWQEVKi-TuLQ&amp;sig2=sdZu6W V1IBIV 
SDrwhtworMA" onmousedown= Tetum rwt(this,",",",l,AFQIjJCNH AxwplurFOBqeScehWQEVKIi- 
TuLQ','sdZu6W VIBIVSDrwhtworMA',0CCgQFJAA,',",",event)" data-href="http://www. 
crummy.com/software/BeautifulSoup/"> <em> BeautifulSoup</em>: We called him Tortoise 
because he taught us.</a> 

该 元 素 看 起 来 复杂 得 难以 置信 ， 但 这 没有 关系 。 只 需要 找到 查询 结果 链接 都 具有 的 
模式 。 但 这 个 <a> 元 素 没 有 什么 特殊 ， 难 以 和 该 页 面 上 非 查询 结果 的 <a> 元 素 区 分 开 来 。 

确保 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# lucky.py - Opens several google search results. 

























































































import requests, sys, webbrowser, bs4 
--SNip-- 


# Retrieve top search result links. 
soup = bs4.BeautifulSoup(res.text) 


# Open a browser tab for each result. 
linkElems = soup.select('.r a') 


但 是 ， 如 果 从 <a> 元 素 向 上 看 一 点 ， 就 会 发 现 这 样 一 个 元 素 : <h3 class="r">。 查 看 
余下 的 HTML 源 代码 ， 看 起 来 + 类 仅 用 于 查询 结果 链接 。 你 不 需要 知道 CSS 类 了 是 什 
么 ， 或 者 它 会 做 什么 。 只 需要 利用 它 作为 一 个 标记 ， 查 找 需要 的 <a> 元 素 。 可 以 通 
过 下 载 页 面 的 HTML 文本 , 创建 一 个 BeautifulSoup 对 象 ， 然 后 用 选择 符 'r a'， 找 到 
所 有 具有 CSS 类 + 的 元 素 中 的 <a> 元 素 。 
































































































































第 3 步 : 针对 每 个 结果 打开 Web 浏览 器 
最 后 ,我 们 将 告诉 程序 ， 针对 结果 打开 Web 浏览 器 选项 卡 。 将 下 面 的 内 容 添加 
到 程序 的 末尾 : 


#! python3 
# lucky.py - Opens several google search results. 























import requests, sys, webbrowser, bs4 
--SNip-- 

# Open a browser tab for each result. 
linkElems = soup.select('.r a') 
numOpen = min(5, len(linkElems)) 


for i in range(num0pen) : 
webbrowser.open('http://google.com' + linkElems[i].get('href')) 


默认 情况 下 ， 你 会 使 用 webbrowser 模块 ， 在 新 的 选项 卡 中 打开 前 5 个 查询 结果 。 
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但 是 ， 


匹配 '. 
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长 度 





内 建 的 Python 函数 min(0) 返 回 





建 的 
中 






























































(取决 于 哪 


个 更 小 )。 




















max(O 函 数 ， 返 回 传 入 的 参数 














调用 








部 分 ， 所 以 必须 连接 它 和 href 属性 的 字符 串 。 
现在 可 以 马上 打 姑 


在 该 循环 的 每 次 迭代 中 ,你 使 / 
新 的 选项 卡 。 请 注意 ， 返 区 














range(numOpen)， 执 行 一 个 for 循环 。 


















































] 户 查询 的 主题 可 能 少 于 5 个 查询 结果 。soup.select() 调 
ra 选择 器 的 所 有 元 素 , 所 以 打开 选项 卡 的 数目 要 么 是 5， 


传 入 的 整 型 或 浮 点 型 参数 ! 
最 大 的 一 个 )。 你 可 以 使 月 
是 否 少 于 5 个 链接 ， 并 且 将 要 打开 的 链接 数 保存 在 变量 numOpen 中 。 然 后 可 以 














回 
么 











j 返 
要 











个 列表 ， 包 
是 这 个 列表 的 














最 小 的 






































个 (也 有 内 





日 minO 弄 清楚 该 列表 

















webbrowser.open()， 在 Web 浏览 器 中 打开 一 个 
的 <a> 元 素 的 href 属性 中 ,不 包含 初始 的 http://google.com 


F 前 5 个 Google 查找 结果 ， 比 如 说 ， 要 查找 Python programming 


tutorials， 你 只 要 在 命令 行 中 运行 lucky python programming tutorials〈 如 何在 你 的 操 
作 系 统 中 方便 地 运行 程序 ， 请 参看 附录 B )。 























第 4 步 : 类 似 程序 的 想法 


11.7 


分 选项 卡 浏览 的 好 处 在 于 , 很 容易 在 新 选项 卡 中 打开 一 些 链接 ， 


























省 后 再 来 查看 。 











一 个 自动 打开 几 个 链接 的 程序 ， 很 适合 快捷 地 完成 下 列 任务 : 


项 目 : 


博客 和 其 他 经 常 更 新 的 网 站 通常 有 
一 篇 ”按钮 ， 将 你 带 到 以 前 的 局 


拷贝 该 网 站 














打开 针对 一 个 产品 的 所 有 评论 的 链接 











查找 亚马逊 这 样 的 电 商 网 站 后 ， 打 开 所 有 的 产品 页 面 ; 


9 


























下 载 所 有 XKCD 漫画 























查找 Flickr 或 Imgur 这 样 的 照片 网 站 后 ， 扩 















































个 首页 , 其 中 有 最 新 的 帖子 ， 
5 子 。 然 后 那个 由 














i 子 也 有 一 个 “前 一 篇 
































这 创建 了 一 条 线索 ， 从 最 近 的 页 面 ， 











直到 该 网 站 的 第 一 个 帖子 









































很 无 聊 的 工作 ， 所 以 让 我 们 写 一 个 程序 来 做 这 件 事 。 
XKCD 是 一 个 流行 的 极 客 漫画 网 站 ， 


http://xkcd.com/ 有 一 个 “Prev” 按 钮 ， 让 |) 





























它 符合 这 个 结构 (参见 图 




















j 户 导航 到 前 














画 要 花 较 长 的 时 间 ， 但 你 可 以 写 一 个 脚本 ， 


下 面 是 程序 要 做 的 事 : 
加 载 主 页 ; 

保存 i 
转 入 前 





























万; 
一 张 漫 画 的 链接 ; 
直到 第 一 张 漫画 。 


玄 页 的 漫画 图 



























































开 查 找 结果 中 的 所 有 照片 的 链接 。 


以 及 一 个 “前 
”按钮 ， 以 此 
。 如 果 你 希 归 




















的 内 容 ， 在 离线 的 时 候 阅 读 ， 可 以 手工 导航 至 每 个 页 面 并 保存 。 但 这 是 





11-6)。 首 页 





看 的 漫画 。 手 工 下载 每 张 温 








在 几 分 钟 内 完成 这 件 事 。 
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0 A Took A LOT OF THINKING, BUT THIS 
PLACE HAS FEWER DISTRACTIONS THAN 
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STONE5 15 THE NEXT 
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INSTEAD OF ELECTRIATY, INFORMATION ABOUT 
BUT ITS THE SAME™* RE A PD A PARTICLE WAS 














。 利用 requests 模块 下 载 页 面 。 
。 利用 Beautiful Soup 找到 页 面 中 漫画 图 像 的 URL。 
。 利用 iter_contentO 下 载 漫 画图 像 ， 并 保存 到 硬盘 。 
。 找到 前 一 张 漫画 的 链接 URL， 然 后 重复 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 downloadXkcd.py。 






























































第 1 步 : 设计 程序 
打开 一 个 浏览 器 的 开发 者 工具 ， 检 查 该 页 面 上 的 元 素 ， 你 会 发 现下 面 的 内 容 : 
。 漫画 图 像 文 件 的 URL， 由 一 个 <img> 元 素 的 href 属性 给 出 。 
。 <img> 元 素 在 <div id="comic"> 元 素 之 内 。 
。 Prev 按钮 有 一 个 rel HTML 属性 ， 值 是 prev。 
。 第 一 张 漫画 的 Prev 按钮 链接 到 http://xkcd.com#URL， 表 明 没 有 前 一 个 页 面 了 。 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 



























































import requests, os, bs4 
url = 'http://xkcd.com’ # starting url 
os.makedirs('xkcd', exist ok=True) # store comics in ./xkcd 
While not url.endswith('#'): 

# TODO: Download the page . 


# TODO: Find the URL of the comic image. 
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# TODO: Download the image 
# TODO: Save the image to ./xkcd. 
# TODO: Get the Prev button's url. 


print('Done.') 
你 会 有 一 个 url 变量 ， 开 始 的 值 是 'http://xkcd.com'"， 然 后 反复 更 新 (在 一 个 for 
循环 中 )， 变 成 当前 页 面 的 Prev 链接 的 URL。 在 循环 的 每 一 步 ， 你 将 下 载 URL 上 
的 漫画 。 如 果 URL 以 # 结 束 ， 你 就 知道 需要 结束 循环 。 

将 图 像 文 件 下 载 到 当前 目录 的 一 个 名 为 xkcd 的 文件 夹 中 。 调 用 os.makedirsO 
函数 。 确 保 这 个 文件 夹 存在 ， 并 且 关 键 字 参 数 exist_ok=True 在 该 文件 夹 已 经 存在 时 ， 
防止 该 函数 抛 出 异常 。 剩 下 的 代码 只 是 注释 ， 列 出 了 剩 下 程序 的 大 纲 。 













































































































































































第 2 步 : 下 载 网 页 
我 们 来 实现 下 载 网 页 的 代码 。 让 你 的 代码 看 起 来 像 这 样 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 

















import requests, os, bs4 


url = 'http://xkcd.com’ # starting url 
os.makedirs('xkcd', exist ok=True) # store comics in ./xkcd 
While not url.endswith('#'): 

# Download the page. 

print('Downloading page %s...' % url) 

res = requests.get(url) 

res.raise for status() 


soup = bs4.BeautifulSoup(res. text) 

# TODO: Find the URL of the comic image. 

# TODO: Download the image. 

# TODO: Save the image to ./xkcd. 

# TODO: Get the Prev button's url. 
print('Done.') 

首先 ,打印 ul， 这 样 用 户 就 知道 程序 将 要 下 载 哪个 URL。 然后 利用 requests 模块 的 
Tequest.get0 函 数 下 载 它 。 像 以 往 一 样 ， 马 上 调用 Response 对 象 的 raise_for_status() 方 法 ， 
如 果 下 载 发 生 问 题 ， 就 抛 出 异常 ， 并 终止 程序 。 否 则 ， 利 用 下 载 页 面 的 文本 创建 一 
个 BeautifulSoup 对 象 。 
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第 3 步 : 寻找 和 下 载 漫画 图 像 
让 你 的 代码 看 起 来 像 这 样 : 

















第 11 章 从 Web 抓 取 信息 207 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 
--SNip-- 


# Find the URL of the comic image. 

comicElem = soup.select('#comic img') 

if comicElem == []: 
print('Could not find comic image.') 

else: 
comicUrl = 'http:' comicElem[0] .get('src') 
# Download the image. 
print('Downloading image %s...' % (comicUrl)) 
res = requests.get(comicUr]l) 
res.raise for status() 


# TODO: Save the image to ./xkcd. 

# TODO: Get the Prev button's url. 
print('Done.') 
用 开发 者 工具 检查 XKCD 主页 后 , 你 知道 漫画 图 像 的 <img> 元 素 是 在 一 个 <div> 元 
素 中 ， 它 带 有 的 id 属性 设置 为 comic。 所 以 选择 器 #comic img' 将 从 BeautifulSoup 
对 象 中 选 出 正确 的 <img> 元 素 。 

有 一 些 XKCD 页 面 有 特殊 的 内 容 ， 不 是 一 个 简单 的 图 像 文件 。 这 没 问 题 ， 跳 过 它们 
就 好 了 。 如 果 选 择 器 没有 找到 任何 元 素 ， 那 么 soup.select(#comic img) 将 返回 一 个 空 的 列 
表 。 出 现 这 种 情况 时 ， 程 序 将 打印 一 条 错误 消息 ， 不 下 载 图 像 ， 继 续 执 行 。 

人 否则， 选择 器 将 返回 一 个 列表 , 包含 一 个 <img> 元 素 。 可 以 从 这 个 <img> 元 素 中 
取得 src 属性 ， 将 它 传递 给 requests.get0， 下 载 这 个 漫画 的 图 像 文 件 。 
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让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 











import requests, os, bs4 
--SNip-- 


# Save the image to ./xkcd. 
imageFile = open(os.path.join('xkcd', os.path.basename(comicUrl1)), 'wb') 
for chunk in res.iter content(100000): 
imageFile.write(chunk) 
imageFile.close() 


# Get the Prev button's url. 
prevLink = soup.select('a[lrel="prev"]')[0] 
url = 'http://xkcd.com' + prevLink.get('href') 


print('Done.') 


Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 

















这 时 ， 漫 画 的 图 像 文件 保存 在 变量 res 中 。 你 需要 将 图 像 数 据 写 入 硬盘 的 文件 。 

你 需要 为 本 地 图 像 文件 准备 一 个 文件 名 ， 传 递 给 open()。comicUrl 的 值 类 似 
'http://imgs.xkcd.com/comics/heartbleed_explanation.png'。 你 可 能 注意 到 , 它 看 起 来 很 
像 文 件 路 径 。 实 际 上 ， 调 用 os.path.basename0O 时 传 入 comicUrl， 它 只 返回 URL 的 
最 后 部 分 : heartbleed_explanation.png'。 你 可 以 用 它 作 为 文件 名 ， 将 图 像 保存 到 硬 
盘 。 用 os.path.join0 连 接 这 个 名 称 和 xkcd 文件 夹 的 名 称 ， 这 样 程序 就 会 在 Windows 
下 使 用 倒 斜 枉 〈\), 在 OSX 和 Linux 下 使 用 和 斜 杠 (/)。 既 然 你 最 后 得 到 了 文件 名 ， 
就 可 以 调用 open0， 用 'wb' 模 式 打 开 一 个 新 文件 。 

忆 一 下 本 章 早 些 时 候 ， 保 存 利 用 Requests 下 载 的 文件 时 ， 你 需要 循环 处 理 
iter_content() 方 法 的 返回 值 。for 循环 中 的 代码 将 一 段 图 像 数据 写 入 文件 〈 每 次 最 多 
10 万 字 节 )， 然 后 关闭 该 文件 。 图 像 现在 保存 到 硬盘 中 。 

然后 ,选择 器 'a[lrel="prev"] 识别 出 rel 属性 设置 为 prev 的 <a> 元 素 , 利用 这 个 <a> 
元 素 的 href 属性 ， 取 得 前 一 张 漫画 的 URL， 将 它 保存 在 url 中 。 然 后 while 循环 针 
对 这 张 漫画 ， 再 次 开始 整个 下 载 过 程 。 

这 个 程序 的 输出 看 起 来 像 这 样 : 
Downloading page http://xkcd.com... 
Downloading image http://imgs.xkcd.com/comics/phone alarm.png... 
Downloading page http://xkcd.com/1358/... 

Downloading image http://imgs.xkcd.com/comics/nro.png... 

Downloading page http://xkcd.com/1357/... 

Downloading image http://imgs.xkcd.com/comics/free speech.png... 
Downloading page http://xkcd.com/1356/... 

Downloading image http://imgs.xkcd.com/comics/orbital mechanics.png... 
Downloading page http://xkcd.com/1355/... 

Downloading image http://imgs.xkcd.com/comics/airplane message.png... 
Downloading page http://xkcd.com/1354/... 


Downloading image http://imgs.xkcd.com/comics/heartbleed explanation.png... 
--SNip-- 


这 个 项 目 是 一 个 很 好 的 例子 ， 说 明 程序 可 以 自动 顺 着 链接 ， 从 网 络 上 抓 取 大 量 
的 数据 。 你 可 以 从 Beautiful Soup 的 文档 了 解 它 的 更 多 功能 : http//www. crummy.com/ 
software/BeautifulSoup/bs4/doc/. 












































































































































a 























加 









































































































































第 5 步 : 类 似 程序 的 想法 
下 载 页 面 并 追踪 链接 , 是 许多 网 络 候 虫 程 序 的 基础 ,类 似 的 程序 也 可 以 做 下 面 的 事情 : 
。 顺 着 网 站 的 所 有 和 链接， 备份 整个 网 站 。 
。 拷贝 一 个 论坛 的 所 有 信息 。 
。 复制 一 个 在 线 商 店 中 所 有 产品 的 目录 。 
requests 和 BeautifulSoup 模块 很 了 不 起 ， 只 要 你 能 弄 清楚 需要 传递 给 requests.get0 
的 URL。 但 是 ， 有 时 候 这 并 不 容易 找到 。 或 者 ， 你 希望 编程 浏览 的 网 站 可 能 要 求 你 先 
登录 。selenium 模块 将 让 你 的 程序 具有 执行 这 种 复杂 任务 的 能 力 。 
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11.8 用 selenium 模块 控制 浏览 器 


selenium 模块 让 Python 直接 控制 浏览 器 ， 实 际 点 击 链接 ， 填 写 登录 信息 ， 几 平 
就 像 是 有 一 个 人 类 用 户 在 与 页 面 交 互 。 与 Requests 和 Beautiful Soup 相 比 , Selenium 
允许 你 用 高 级 得 多 的 方式 与 网 页 交互 。 但 因为 它 启动 了 Web 浏览 器 , 假如 你 只 是 想 
从 网 络 上 下 载 一 些 文件 ， 会 有 点 慢 ， 并 且 难 以 在 后 台 运 行 。 

附录 A 有 安装 第 三 方 模块 的 详细 步 又 。 






















































































11.8.1 启动 selenium 控制 的 浏览 
对 于 这 些 例子 ， 你 需要 FireFox 浏览 器 。 它 将 成 为 你 控制 的 浏览 器 。 如 果 你 还 
没有 FireFox， 可 以 从 http:Wgetfirefox.com/ 免 费 下 载 它 。 
导入 selenium 的 模块 需要 一 点 技巧 。 不 是 import selenium， 而 是 要 运行 fom selenium 
import webdriver (为 什么 selenium 模块 要 使 用 这 种 方式 设置 ? 答案 超出 了 本 书 的 范围 )。 
之 后 ， 你 可 以 用 selenium 启动 FreFox 浏览 器 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> from selenium import webdriver 

>>> browser = webdriver.Firefox() 

>>> type(browser) 

<class 'selenium.webdriver.firefox.webdriver.WebDriver'> 
>>> browser.get('http://inventwithpython.com') 


你 会 注意 到 ， 当 webdriver.Firefox() 被 调用 时 ，FireFox 浏览 器 启动 了 。 对 值 
webdriver.Firefox() 调 用 type0 ， 揭 示 它 具有 WebDriver 数据 类 型 。 调 用 browser. 
get(http://inventwithpython.com") 将 浏览 器 指向 http://inventwithpython.com/。 浏 览 器 
应 该 看 起 来 如 图 11-7 所 示 。 
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11-7 在 IDLE 中 调用 webdriver.Firefox() 和 get() 后 ，FireFox 浏览 器 出 现 了 
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11.8.2 ”在 页 面 中 寻找 元 素 

WebDriver 对 象 有 好 几 种 方法 ， 用 于 在 页 面 中 寻找 元 素 。 它 们 被 分 成 fnd_element_ * 和 

find_elements_* 方 法 。find_element_* 方 法 返回 一 个 WebElement 对 象 ， 代 表 页 面 中 

匹配 查询 的 第 一 个 元 素 。find_elements_* 方 法 返回 WebElement_* 对 象 的 列表 ， 包 含 
页 面 中 所 有 匹配 的 元 素 。 

表 11-3 展示 了 find_element * 和 find_elements_* 方 法 的 几 个 例子 ， 它 们 在 变量 

browser 中 保存 的 WebDriver 对 象 上 调用 。 


表 11-3 selenium 的 WebDriver 方法 ， 用 于 寻找 元 素 





















































































































































方法 名 返回 的 WebElement 对 象 /列表 
browser.find_element_by_class_name(name) 区 用 CSS 类 name 的 元 素 
browser.find_elements_by_class_name(name) 
browser.find_element_by_css_selector(selector) 匹配 CSS selector 的 元 素 
browser.find_elements_by_css_selector(selector) 

browser.find_element_by_id(ia) 匹配 ia 属性 值 的 元 素 
browser.find_elements_by_id(id) 

browser.find_element_by_link_text(tex?) 完全 [匹配 提供 的 text 的 <a> 元 素 
browser.find_elements_by_link_text(tex?t) 
browser.find_element_by_partial_link_text(tex?) 包含 提供 的 text 的 <a> 元 素 
browser.find_elements_by_partial_link_text(tex?) 

browser.find_element_by_name(name) 匹配 name 属性 值 的 元 素 
browser.find_elements_by_name(name) 

browser.find_element_by_tag_name(name) 匹配 标签 name 的 元 素 
browser.find_elements_by_tag_name(name) (大 小 写 无 关 ，<a> 元 素 匹 配 a' 和 'A') 

















除了 *_by_tag_name() 方 法 ， 所 有 方法 的 参数 都 是 区 分 大 小 写 的 。 如 果 页 面 上 没 
有 元 素 匹 配 该 方法 要 查找 的 元 素 ，selenium 模块 就 会 抛 出 NoSuchElement 异常 。 如 
果 你 不 希望 这 个 异常 让 程序 骨 尝 ， 就 在 代码 中 添加 try 和 except 语句 。 

一 旦 有 了 WebElement 对 象 , 就 可 以 读 取 表 11-4 中 的 属性 , 或 调用 其 中 的 方法 ， 




































































































































































了 解 它 的 更 多 功能 
表 11-4 WebElement 的 属性 和 方法 
属性 或 方法 描述 
tag_name 标签 名 ， 例 如 'a' 表 示 <a> 元 素 
get_attribute(name) 该 元 素 name 属性 的 值 
text 该 元 素 内 的 文本 ， 例 如 <span>hello</span> 中 的 'hello' 
clearQ) 对 于 文本 字段 或 文本 区 域 元 素 ， 清 除 其 中 输入 的 文本 
is_displayed() 如 果 该 元 素 可 见 ， 返 回 True， 否 则 返回 False 
is_enabled() 对 于 输入 元 素 ， 如 果 该 元 素 启 用 ， 返 回 True， 否 则 返回 False 
is_selected() 对 于 复 选 框 或 单 选 框 元 素 ， 如 果 该 元 素 被 选中 ， 选 择 True， 和 否则 返回 False 
location 个 字典 ， 包 含 键 x' 和 'y'， 表 示 该 元 素 在 页 面 上 的 位 
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例如 ， 打 开 一 个 新 的 文件 编辑 器 ， 输 入 以 下 程序 ; 


from selenium import webdriver 
browser = webdriver.Firefox() 
browser.get('http://inventwithpython.com') 
try: 

elem = browser.find element by class name('bookcover') 

print('Found <%s> element with that class name!' % (elem.tag name)) 
except: 

print('Was not able to find an element with that name.') 


这 里 我 们 打开 FireFox， 让 它 指向 一 个 URL。 在 这 个 页 面 上 ， 我 们 试图 找到 带 
有 类 名 'bookcover' 的 元 素 。 如 果 找 到 这 样 的 元 素 ， 我 们 就 用 tag_name 属性 将 它 的 标 
签名 打印 出 来 。 如 果 没 有 找到 这 样 的 元 素 ， 就 打印 不 同 的 信息 。 
这 个 程序 的 输出 如 下 : 


Found <img> element with that class name! 


我 们 发 现 了 一 个 元 素 带 有 类 名 'bookcover， 它 的 标签 名 是 'img'。 
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11.8.3 点 击 页 面 
find_element * 和 find_elements * 方 法 返回 的 WebElement 对 象 有 一 个 click0 方 法 ， 
模拟 鼠标 在 该 元 素 上 点 击 。 这 个 方法 可 以 用 于 链接 跳 转 ， 选 择 单 选 按钮 ， 点 击 提交 按钮 ， 
或 者 触发 该 元 素 被 鼠标 点 击 时 发 生 的 任何 事情 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from selenium import webdriver 

>>> browser = webdriver.Firefox() 

>>> browser.get('http://inventwithpython.com') 

>>> linkElem = browser.find element by link text('Read It Online') 
>>> type(linkElem) 

<class 'selenium.webdriver.remote.webelement.WebElement'> 

>>> linkElem.click() # follows the "Read It Online" link 


这 段 程序 打开 FireFox， 指 向 http://inventwithpython.com/， 取 得 <a> 元 素 的 
WebElement 对 象 ， 它 的 文本 是 “Read It Online”， 然 后 模拟 点 击 这 个 元 素 。 就 像 你 
自己 点 击 这 个 链接 一 样 ， 浏 览 器 将 跳 转 到 这 个 链接 。 






















































































11.8.4 ”填写 并 提交 表单 
向 Web 页 面 的 文本 字段 发 送 击 键 ， 只 要 找到 那个 文本 字段 的 <input> 或 <textarea> 元 
素 ， 然 后 调用 send_keys0 方 法 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from selenium import webdriver 

>>> browser = webdriver.Firefox() 

>>> browser.get('http://gmail.com') 

>>> emailElem = browser.find element by _ id('Email') 

>>> emailElem.send keys('not my real email@gmail.com') 
>>> passwordElem = browser.find element by _ id('Passwd') 
>>> passwordElem.send keys('12345') 

>>> passwordElem.submit() 
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只 要 Gmail 没有 在 本 书 出 版 后 改变 Username 和 Password 文本 字段 的 id， 上 面 的 
代码 就 会 用 提供 的 文本 填写 这 些 文本 字段 〈 你 总 是 可 以 用 浏览 器 的 开发 者 工具 验证 
id)。 在 任何 元 素 上 调用 submit0 方 法 , 都 等 同 于 点 击 该 元 素 所 在 表单 的 Submit 按钮 (你 
可 以 很 容易 地 调用 emailElem.submit)， 代 码 所 做 的 事情 一 样 )。 















































11.8.5 ”发 送 特殊 键 
selenium 有 一 个 模块 ， 针 对 不 能 用 字符 串 值 输入 的 键盘 击 键 。 它 的 功能 非常 类 
似 于 转 义 字符 。 这 些 值 保存 在 selenium.webdriver.common.keys 模块 的 属性 中 。 由 于 
这 个 模块 名 非常 长 ， 所 以 在 程序 顶部 运行 fom selenium.webdriver common.keys import 
Keys 就 比较 容易 。 如 果 这 么 做 ， 原 来 需要 写 from selenium. webdriver.common.keys 的 
地 方 ， 就 只 要 写 Keys。 表 11-5 列 出 了 常用 的 Keys 变量 。 


表 11-5” selenium.webdriver.common.keys 模块 中 常用 的 变量 
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属 含义 
Keys.DOWN, Keys.UP, Keys.LEFT,Keys.RIGHT 键盘 箭头 键 

Keys.ENTER, Keys.RETURN 可 车 和 换行 键 

Keys.HOME, Keys.END, Home 键 、End 键 、PageUp 键 和 Page Down 键 


Keys.PAGE_ DOWN,Keys.PAGE_UP 

Keys.ESCAPE, Keys.BACK_SPACE, Keys.DELETE Esc、Backspace 和 字母 键 
Keys.F1, Keys.F2,..., Keys.F12 键盘 顶部 的 FE; 到 Fi， 键 
Keys.TAB Tab 键 


例如 ， 如 果 光 标 当前 不 在 文本 字段 中 ， 按 下 home 和 end 键 ， 将 使 浏览 器 滚动 
到 页 面 的 顶部 或 底部 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 send_keys() 调 用 是 如 何 
滚动 页 面 的 : 
>>> from selenium import webdriver 
>>> from selenium.webdriver.common.keys import Keys 
>>> browser = webdriver.Firefox() 
>>> browser.get('http://nostarch.com') 
>>> htmlElem = browser.find _ element by tag name('html') 


>>> htmlElem.send keys (Keys.END) # scrolls to bottom 
>>> htmlElem.send keys (Keys .HOME) # scrolls to top 


<html> 标 签 是 HTML 文件 中 的 基本 标签 : HTML 文件 的 完整 内 容 包 含 在 <html> 
和 </html> 标 签 之 内 。 调用 browserfind_element_by_tag_name(html) 是 像 一 般 Web 页 
面 发 送 按键 的 好 地 方 。 当 你 深 动 到 该 页 的 底部 , 新 的 内 容 就 会 加 载 , 这 可 能 会 有 用 。 


















































































































































11.8.6 ”点 击 浏览 器 按钮 
利用 以 下 的 方法 ，selenium 也 可 以 模拟 点 击 各 种 浏览 器 按钮 : 
browserbackO 点 击 “ 返 回 ” 按 钮 。 
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browser.forward0 上 点击“ 前进” 按钮 。 
browserrefresh0 点击“ 刷新 ”按钮 。 
browser.qduit0 点 击 “ 关 闭 窗口 ”按钮 。 














11.8.7 关于 selenium 的 更 多 信息 

selenium 能 做 的 事 远 远 超 出 了 这 里 描述 的 功能 。 它 可 以 修改 浏览 器 的 cookie， 
截取 页 面 快照 ， 运 行 定制 的 JavaScript。 要 了 解 这 些 功 能 的 更 多 信息 ， 请 参考 文档 : 
http://selenium-python.readthedocs.org/。 
























































11.9 小结 


大 多 数 无 聊 的 任务 并 不 限于 操作 你 计算 机 中 的 文件 。 能 够 编程 下 载 网 页 ， 可 以 
让 你 的 程序 扩展 到 因特网 。requests 模块 让 下 载 变 得 很 简单 , 加 上 HTML 的 概念 和 选 
择 器 的 基本 知识 ， 你 就 可 以 利用 BeautifulSoup 模块 ， 解 析 下 载 的 网 页 。 

但 要 全 面 自动 化 所 有 针对 网 页 的 任务 ， 你 需要 利用 selenium 模块 ， 直 接 控 竺 
Web 浏览 器 。selenium 模块 将 允许 你 自动 登录 到 网 站 ， 填 写 表单 。 因 为 Web 浏览 器 是 
在 因特网 上 收发 信息 的 最 常见 方式 ， 所 以 这 是 程序 员工 具 箱 中 一 件 了 不 起 的 工具 。 
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11.10 ”习题 


1. 简单 描述 webbrowser、requests、BeautifulSoup 和 selenium 模块 之 间 的 不 同 。 
2. requests.get0 返 回 哪 种 类 型 的 对 象 ? 如 何以 字符 串 的 方式 访问 下 载 的 内 容 ? 

3. 哪个 Requests 方法 检查 下 载 是 否 成 功 ? 

4. 如 何 取 得 Requests 响应 的 HITP 状态 码 ? 

5. 如 何 将 Requests 响应 保存 到 文件 ? 
6 
7 
8 












































打开 浏览 器 的 开发 者 工具 ， 人 快捷 键 是 什么 ? 
开发 者 工具 中 ， 如 何 查 看 页 面 上 特定 元 素 的 HTML? 
.要 找到 id 属性 为 main 的 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 
.要 找到 CSS 类 为 highlight 的 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 
10. 要 找到 一 个 <div> 元 素 中 所 有 的 <div> 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 
. 要 找到 一 个 <button> 元 素 ， 它 的 value 属性 被 设置 为 favorite，CSS 选择 器 
是 什么 ? 
12. 假定 你 有 一 个 Beautiful Soup 的 Tag 对 象 保存 在 变量 spam 中 ， 针 对 的 元 素 是 
<div>Hello world1</div>。 如 何 从 这 个 Tag 对 象 中 取得 字符 串 'Hello world!'? 
13. 如 何 将 一 个 Beautiful Soup 的 Tag 对 象 的 所 有 属性 保存 到 变量 tinkElem 中 ? 














本 站 
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1$，find_element * 和 find_elements_ * 方 法 之 间 的 区 别 是 什么 ? 


16. Selenium 的 WebElement 对 象 有 哪些 方法 来 模 
17. 你 可 以 在 Submit 按钮 的 WebEle 
还 有 什么 更 容易 的 方法 
18. 利用 selenium 如 何 模拟 上 




















利用 selenium， 





实践 项 目 


作为 实践 ， 编 程 完成 下 列 任务 。 


ment 对 象 上 调 
所 日 交 表 单 ? 2 



























































击 浏览 器 的 66 前 进入 “ 返 








命令 行 邮 件 程序 
编写 一 个 程序 ，i 
登录 到 你 的 邮件 帐号， ) 
个 程序 建立 一 个 独立 以 

这 是 为 程序 添加 通 
Facebook 或 Twitter 账号 发 这 























图 像 网 站 下 载 

















网 站 。 


2048 


2048 是 一 个 简单 的 游戏 ， 
实际 上 ， 你 可 以 通关 
编写 一 个 程序 ， 打 了 


























过 命令 电 子 邮 


























编写 一 个 程序 ， 
然后 下 载 所 有 查询 结果 的 
































通过 箭头 向 上 、 as 



































链接 验证 























站 、 左 按键 ， 自 动 玩 游戏 。 






























































拟 鼠 标点 击 和 键盘 击 键 ? 
j send_keys(Keys.ENTER), 但 


14. 运行 import selenium 没有 效果 。 如 何 正确 地 导入 selenium 模块 ? 








回 ”和 “刷新 ”按钮 ? 





什 二 二 和 文本 字符 趾 。 selenium 
F， 发 送 到 提供 的 地 址 (你 也 





法 。 你 也 可 以 编写 类 似 的 程序 ， 从 


， 如 Flickr 或 Imgur， 查 找 一 个 类 型 的 照片 ， 
旦 序 ， 访 问 任何 具有 查找 功能 的 图 像 





、 碳 移动 滑 块 ， 让 滑 块 合并 。 











编写 一 个 程序 ， 对 给 定 的 网 页 URL， 下 载 该 页 面 所 有 链接 的 页 
记 出 所 有 具有 404“Not Found” 状 态 码 的 页 面 ， 











sy Fs 模式 ， 获 得 相当 高 的 分 数 。 
le 不 断 发 送 上 、 右 、 





























将 它们 作为 坏 链接 输 





。 程序 应 该 标 
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o 


第 11 章 从 Web 抓 取 信息 215 


s12= 


处 理 Excel 电子 表格 











Excel 是 Windows 环境 下 流行 的 、 强 大 的 电子 表格 应 用 。 
openpyxl 模块 让 Python 程序 能 读 取 和 修改 Excel 电子 表格 文 
件 。 例 如 ， 可 能 有 一 个 无 聊 的 任务 ， 需 要 从 一 个 电子 表格 找 
贝 一 些 数据 ， 粘 贴 到 另 一 个 电子 表格 中 。 或 者 可 能 需要 从 几 
干 行 中 挑选 几 行 , 根据 某 种 条 件 稍 作 修 改 。 或 者 需要 查看 几 
百 份 部 门 预 算 电子 表格 ,寻找 其 中 的 赤字 。 正 是 这 种 无 聊 无 
脑 的 电子 表格 任务 ， 可 以 通过 Python 来 完成 。 

LibreOffice Calc 和 OpenOffice Calc 都 能 处 理 Excel 的 电子 表格 文件 格式 , 这 意 
味 着 openpyxl 模块 也 能 处 理 来 自 这 些 应 用 程序 的 电子 表格 。 你 可 以 从 https://www. 
libreoffice.org/ 和 http://www.openoffice.org/ 下 载 这 些 软件 。 即 使 你 的 计算 机 上 已 经 安 
装 了 Excel， 可 能 也 会 发 现 这 些 程序 更 容易 使 用 。 但 是 ， 本 章 中 的 截屏 图 都 来 自 于 
Windows 7 上 的 Excel 2010。 

























































































































































































































































































12.1 Excel 文档 


首先 ， 让 我 们 来 看 一 些 基 本 定义 。 一 个 Excel 电子 表格 文档 称 为 一 个 工作 短 。 一 个 
工作 短 保 存在 扩展 名 为 .xlsx 的 文件 中 。 每 个 工作 短 可 以 包含 多 个 表 《〈 也 称 为 工作 表 )。 
























































户 当前 查看 的 表 〈 或 关闭 Excel 前 最 后 查看 的 表 )， 称 为 活动 表 。 

每 个 表 都 有 一 些 列 〈 地 址 是 从 A 开始 的 字母 》 和 一 些 行 〈 地 址 是 从 1 开始 的 数 
字 )。 在 特定 行 和 列 的 方 格 称 为 单元 格 。 每 个 单元 格 都 包含 一 个 数字 或 文本 值 。 单 
元 格 形 成 的 网 格 和 数据 构成 了 表 。 



















































































12.2 ”安装 openpyxl 模块 
Python 没有 自 带 openpyxl， 所 以 必须 安装 。 按 照 附 录 A 中 安装 第 三 方 模块 的 指 
令 ， 模 块 的 名 称 是 openpyxl。 要 测试 它 是 否 安装 正确 ， 就 在 交互 式 环境 中 输入 以 下 
代码 : 












































OFEOPenRYXL 二 一 一 一 一 一 一 一 一 一 一 一 一 

如 果 该 模块 正确 安装 ， 这 应 该 不 会 产生 错误 消息 。 记 得 在 运行 本 章 的 交互 式 环 
境 例子 之 前 ， 要 导入 openpyxl 模块 ， 否 则 会 得 到 错误 ，NameError: name 'openpyxlis 
not defined 。 

本 书 介 绍 了 openpyxl 的 2.1.4 版 ， 但 OpenPyXL 团队 会 经 常 发 布 新 版 本 。 不 过 
不 用 担心 ， 新 版 本 应 该 在 相当 长 的 时 间 内 向 后 兼容 ， 支 持 本 书 中 使 用 的 指令 。 如 果 
你 有 新 版 本 ， 想 看 看 它 提 供 了 什么 新 功能 ， 可 以 查看 OpenPyXL 的 完整 文档 : 
http://openpyxl.readthedocs.org/。 

















































































































12.3” 读 取 Excel 文档 


本 章 的 例子 将 使 用 一 个 电子 表格 example.xlsx， 它 保存 在 根 文件 夹 中 。 你 可 以 
自己 创建 这 个 电子 文档 , 或 从 http://nostarch.com/automatestuff/ 下 载 。 图 12-1 展示 了 
3 个 默认 的 表 ， 名 为 Sheet1、Sheet2 和 Sheet3， 这 是 Excel 自动 为 新 工作 敌 提 供 的 
(不 同 操作 系统 和 电子 表格 程序 ， 提 供 的 默认 表 个 数 可 能 会 不 同 )。 





































































































14 
KK 4» HH Sheetl Sheet2 Sheet3 /3 


Ready | 回 | 
12-1 工作 簿 中 表 的 选项 卡 在 Excel 的 左下 角 











示例 文件 中 的 Sheet 1 应 该 看 起 来 像 表 12-1 (如 果 你 没有 从 网 站 下 载 example.xlsx， 
就 应 该 在 工作 表 中 自己 输入 这 些 数 据 )。 
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表 12-1 example.xlsx 电子 表格 





A B C 
1 4/5/2015 1:34:02 PM Apples 73 
2 4/5/2015 3:41:23 AM Cherries 85 
3 4/6/2015 12:46:51 PM Pears 14 
4 4/8/2015 8:59:43 AM Oranges 52 
3 4/10/2015 2:07:00 AM Apples 152 
6 4/10/2015 6:10:37 PM Bananas 23 
gh 4/10/2015 2:40:46 AM Strawberries 98 





既然 有 了 示例 电子 表格 ， 就 来 看 看 如 何 用 openpyxl 模块 来 操作 它 。 




















12.3.1 用 openpyxl 模块 打开 Excel 文档 
在 导入 openpyxl 模块 后 , 就 可 以 使 用 openpyxlload_workbookO 函 数 。 在 交互 式 
环境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl.load workbook('example.xlsx') 
>>> type (wb) 

<class 'openpyxl.workbook.workbook.Workbook'> 


openpyxl.load_workbook0 函 数 接受 文件 名 ， 返 回 一 个 workbook 数据 类 型 的 值 。 这 

个 workbook 对 象 代表 这 个 Excel 文件 ， 有 点 类 似 File 对 象 代表 一 个 打开 的 文本 文件 。 
要 记 住 ，example.xlsx 需要 在 当前 工作 目录 ， 你 才能 处 理 它 。 可 以 导入 os， 使 
函数 os.getcewd0) 弄 清楚 当前 工作 目录 是 什么 ， 并 使 用 os.chdirO 改 变 当前 工作 目录 。 
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12.3.2 ”从 工作 簿 中 取得 工作 表 
调用 get_sheet_names0) 方 法 可 以 取得 工作 夭 中 所 有 表 名 的 列表 。 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl.1load workbook('example.xlsx') 
>>> wb.get_ sheet names() 

['Sheet1', 'Sheet2', 'Sheet3'] 

>>> Sheet = wb.get sheet by name('Sheet3') 

>>> sheet 

<Worksheet "Sheet3"> 

>>> type(sheet) 

<class 'openpyxl.worksheet.worksheet.Worksheet'> 
>>> sheet.title 

"Sheet3 

>>> anotherSheet = wb.get_active sheet() 

>>> anotherSheet 

<Worksheet "Sheet1 "> 


每 个 表 由 一 个 Worksheet 对 象 表示 ， 可 以 通过 疝 工 作 短 方 法 get_sheet_by_name0 传 
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递 表 名 字符 串 获 得 。 最 后 ， 可 以 调用 Workbook 对 象 的 get_active_sheet0 方 法 ， 取 得 
工作 禾 的 活动 表 。 活 动 表 是 工作 憩 在 Excel 中 打开 时 出 现 的 工作 表 。 在 取得 Worksheet 
对 象 后 ， 可 以 通过 title 属性 取得 它 的 名 称 。 
























































12.3.3 ”从 表 中 取得 单元 格 








Sp 








有 了 Worksheet 对 象 后 ， 就 可 以 按 名 字 访 问 Cell 对 象 。 在 交互 式 环境 中 输入 以 


下 代码 : 


>>> import Openpyx1 

>>> wb = openpyx1.1oad_workbook('example.xlsx') 
>>> Sheet = wb.get sheet by name('Sheet1') 

>>> sheet['A1'] 

<Cell Sheet1.A1> 

>>> sheet['A1'].value 

datetime.datetime(2015, 4, 5, 13, 34, 2) 

>>> C = sheet['B1'] 

>>> c.value 

'Apples' 

>>> 'Row ' + str(c.row) + ', Column ' + c.column + ' is ' + c.value 
"Row 1, Column B is Apples’ 

>>> 'Cell ' + c.coordinate + ' is ' + c.value 
'Cell B1 is Apples' 

>>> sheet['C1'].value 

73 


Cell 对 象 有 一 个 value 属性 ， 不 出 意外 ， 它 包含 这 个 单元 格 中 保存 的 值 。Cell 对 
象 也 有 row、column 和 coordinate 属性 ， 提 供 该 单元 格 的 位 置信 息 。 
这 里 , 访问 单元 格 Bl 的 Cell 对 象 的 value 属性 ， 我 们 得 到 字符 串 'Apples'。row 
属性 给 出 的 是 整数 1，column 属性 给 出 的 是 'B'，coordinate 属性 给 出 的 是 'B1'。 
openpyxl 模块 将 自动 解释 列 A 中 的 日 期 ， 将 它们 返回 为 datetime 值 ， 而 不 是 字 
和 。 datetime 数据 类 型 将 在 第 16 章 中 进一步 解释 。 
用 字母 来 指定 列 ， 这 在 程序 中 可 能 有 点 奇怪 ， 特 别 是 在 Z 列 之 后 ， 列 开 时 使 用 
两 个 字母 : AA、AB、AC 等 。 作 为 蔡 代 ， 在 调用 表 的 cell0 方 法 时 ， 可 以 传 入 整数 
作为 row 和 column 关键 字 参 数 ， 也 可 以 得 到 一 个 单元 格 。 第 一 行 或 第 一 列 的 整数 
是 1， 不 是 0。 输 入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 


>>> sheet.cell(row=1, column=2) 
<Cell Sheet1.B1> 
>>> sheet.cell(row=1, column=2) .value 
'Apples' 
>>> for i in range(1, 8, 2): 
print(i, sheet.cell(row=i, column=2) .value) 
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1 Apples 

3 Pears 

5 Apples 

7 Strawberries 


可 以 看 到 ， 使 用 表 的 cell0 方 法 ， 传 入 row=1 和 column=2， 将 得 到 单元 格 B1 
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的 Cell 对 象 ， 就 像 指定 sheet[BI] 一 样 。 然 后 ， 利 用 cell0 方 法 和 它 的 关键 字 参 数 ， 
就 可 以 编写 for 循环 ， 打 印 出 一 系列 单元 格 的 值 。 

假定 你 想 顺 着 B 列 ， 打 印 出 所 有 奇数 行 单 元 格 的 值 。 通 过 传 入 2 作为 range0 函 数 
的 “ 步 长 ”参数 ， 可 以 取得 每 隔 一 行 的 单元 格 〈 在 这 里 就 是 所 有 奇数 行 )。for 循环 
的 i 变量 被 传递 作为 cell0 方 法 的 row 关键 字 参 数 ， 而 column 关键 字 参 数 总 是 取 2。 
请 注意 传 入 的 是 整数 2， 而 不 是 字符 串 'B'。 

可 以 通过 Worksheet 对 象 的 get highest_ row0O 和 get_highest_column() 方 法 ， 确 定 
表 的 大 小 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl.load workbook('example.xlsx') 
>>> Sheet = wb.get sheet by name('Sheet1') 

>>> sheet.get highest row() 





















































































































































>>> sheet.get highest column() 














请 注意 ，get_highest_column0 方 法 返回 一 个 整数 ， 而 不 是 Excel 中 出 现 的 字母 。 


12.3.4” 列 字母 和 数字 之 间 的 转换 
要 从 字母 转换 到 数字 ， 就 调用 openpyxl.cell.column_index_from_string( 〇 函数 。 
要 从 数字 转换 到 字母 ， 就 调用 openpyxlcell.get_column_letterO 函 数 。 在 交互 式 环境 
中 输入 以 下 代码 : 


>>> import openpyx1 

>>> from openpyxl.cell import get column letter, column index from string 
>>> get column letter(1) 

'A! 

>>> get_ column letter(2) 

'B， 

>>> get_column_letter(27) 

'AA! 

>>> get_ column_ letter(900) 

"AHP 

>>> wb = openpyx1.1oad_workbook('example.xlsx') 
>>> Sheet = wb.get sheet by name('Sheet1') 

>>> get_ column letter(sheet.get highest column()) 
'C! 

>>> column_index from string('A') 

1 

>>> column_index from string('AA') 

27 


在 从 openpyxl.cell 模块 引入 这 两 个 函数 后 ， 可 以 调用 get_column_letter()， 传 入 
像 27 这 样 的 整数 ， 弄 清楚 第 27 列 的 字母 是 什么 。 函 数 column_index_string0 做 的 事情 
相反 : 传 入 一 列 的 字母 名 称 ， 它 告诉 你 该 列 的 数字 是 什么 。 要 使 用 这 些 函 数 ， 不 必 
加 载 一 个 工作 籍 。 如 果 你 愿意 ， 可 以 加 载 一 个 工作 敌 ， 取 得 Worksheet 对 象 ， 并 调 
] Worksheet 对 象 的 方法 ， 如 get_highest_column()， 来 取得 一 个 整数 。 然 后 ， 将 该 
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整数 传递 给 get_column_letter()。 


12.3.5 ”从 表 中 取得 行 和 列 
可 以 将 Worksheet 对 象 切片 ， 取 得 电子 表格 中 一 行 、 一 列 或 一 个 矩形 区 域 中 的 所 有 
Cell 对 象 。 然 后 可 以 循环 遍历 这 个 切片 中 的 所 有 单元 格 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import Openpyx1 
>>> wb = openpyx1.1oad workbook('example.xlsx') 
>>> Sheet = wb.get sheet by name('Sheet1') 
>>> tuple(sheet['A1':'C3']) 
((<Cell Sheet1.A1>, <Cell Sheet1.B1>, <Cell Sheet1.C1>), (<Cell Sheet1.A2>, 
<Cell Sheet1.B2>, <Cell Sheet1.C2>), (<Cell Sheet1.A3>, <Cell Sheet1.B3>， 
<Cell Sheet1.c3>)) 
>>> for rowOfCellObjects in sheet['A1':'C3']: 
for cel10bj in rowOfCellObjects: 
print(cell0bj.coordinate, cell0bj.value) 
print('--- END OF ROW ---') 

A1 2015-04-05 13:34:02 
B1 Apples 
C1 73 
--- END OF ROW --- 
A2 2015-04-05 03:41:23 
B2 Cherries 
C2 85 
--- END OF ROW --- 
A3 2015-04-06 12:46:51 
B3 Pears 
C3 14 

- END OF ROW --- 


这 里 , 我 们 指明 需要 从 Al 到 C3 的 矩形 区 域 中 的 Cell 对 象 , 得 到 了 一 个 Generator 
对 象 ， 它 包含 该 区 域 中 的 Cell 对 象 。 为 了 帮助 我 们 看 清楚 这 个 Generator 对 象 ， 可 以 
使 用 它 的 tuple0 方 法 ， 在 一 个 元 组 中 列 出 它 的 Cell 对 象 。 
这 个 元 组 包含 3 个 元 组 : 每 个 元 组 代表 1 行 ， 从 指定 区 域 的 顶部 到 底部 。 这 3 
个 内 部 元 组 中 的 每 一 个 包含 指定 区 域 中 一 行 的 Cell 对 象 , 从 最 左边 的 单元 格 到 最 右 
边 。 所 以 总 的 来 说 ， 工 作 表 的 这 个 切片 包含 了 从 Al 到 C3 区 域 的 所 有 Cell 对 象 ， 
从 左上 角 的 单元 格 开始 ， 到 右 下 角 的 单元 格 结束 。 

要 打印 出 这 个 区 域 中 所 有 单元 格 的 值 ， 我 们 使 用 两 个 for 循环 。 外 层 for 循环 遍历 
这 个 切片 中 的 每 一 行 @。 然 后 针对 每 一 行 ， 内 层 for 循环 遍历 该 行 中 的 每 个 单元 格 @。 

要 访问 特定 行 或 列 的 单元 格 的 值 ， 也 可 以 利用 Worksheet 对 象 的 rows 和 columns 
属性 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> import openpyx1 
>>> wb = openpyxl1.load workbook('example.xlsx') 
>>> Sheet = wb.get active sheet() 
>>> sheet.columns[1] 

(<Cell Sheet1.B1>, <Cell Sheet1.B2>, <Cell Sheet1.B3>, <Cell Sheet1.B4>, 
<Cell Sheet1.B5>, <Cell Sheet1.B6>, <Cell Sheet1.B7>) 


>>> for cell0bj in sheet.columns[1]: 
print(cell0bj.value) 
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Apples 
Cherries 
Pears 
Oranges 
Apples 
Bananas 
Strawberries 











利用 Worksheet 对 象 的 rows 属性 ， 可 以 得 到 一 个 元 组 构成 的 元 组 。 内 部 的 每 个 元 
组 都 代表 1 行 ， 包 含 该 行 中 的 Cell 对 象 。columns 属性 也 会 给 你 一 个 元 组 构成 的 元 组 ， 
内 部 的 每 个 元 组 都 包含 1 列 中 的 Cell 对 象 。 对 于 example.xlsx， 因 为 有 7 行 3 列 ，rows 





























给 出 由 7 个 元 组 构成 的 一 个 元 组 (每 个 内 部 元 组 包含 3 
3 个 元 组 构成 的 一 个 元 组 (每 个 内 部 元 组 包含 7 个 Cell 

















个 Cell 对 象 )。columns 给 出 由 
对 象 )。 











要 访问 一 个 特定 的 元 组 ， 可 以 利用 它 在 大 的 元 组 中 的 下 标 。 例 如 ， 要 得 到 代表 B 
列 的 元 组 ， 可 以 用 sheet.columns[1]。 要 得 到 代表 A 列 的 元 组 ， 可 以 用 sheet.columns[0]。 
在 得 到 了 代表 行 或 列 的 元 组 后 ， 可 以 循环 遍历 它 的 对 象 ， 打 印 出 它们 的 值 。 



























































12.3.6 工作 短 、 工 作 表 、 单 元 格 



































作为 快速 复习 ， 下 面 是 从 电子 表格 文件 中 读 取 单元 格 涉及 的 所 有 函数 、 方 法 和 











数据 类 型 。 

1. 导入 openpyxl 模块 。 
调用 openpyxl.load_workbookO 函 数 。 
得 Workbook 对 象 。 


























得 Worksheet 对 象 。 






































得 Cell 对 象 。 
取 Cell 对 象 的 value 属性 。 





oo ~ 下 WwW 上 mi 





用 交 济 亲王 王 











12.4 项 目 : 从 电子 表格 中 读 取 数据 


假定 你 有 一 张 电子 表格 的 数据 ， 来自 于 2010 年 美 
务 ， 要 遍历 表 中 的 几 和 干 行 ， 计 算 总 的 人 口 ， 以 及 每 个 县 




















] get_active_sheet0 或 get_sheet_by_name(0 工 作 短 方法 。 














索引 或 工作 表 的 cell0 方 法 ， 带 上 row 和 column 关键 字 参 数 。 











国人 口 普 查 。 你 有 一 个 无 聊 的 任 
的 普查 区 的 数目 (普查 区 就 是 一 









































个 地 理 区 域 , 是 为 人 口 普查 而 定义 的 )。 每 行 表示 一 个 人 口 普查 区 。 我 们 将 这 个 电子 表格 
文件 命名 为 censuspopdata.xlsx， 可 以 从 http://mostarch.com/automatestuff/ 下 载 它 。 它 的 





内 容 如 图 12-2 所 示 。 














尽管 Excel 是 要 能 够 计算 多 个 选中 单元 格 的 和 ， 你 仍然 需要 选中 3000 个 以 上 














的 单元 格 。 即 使 手工 计算 一 个 县 的 人 口 只 需要 几 秒 钊 
时 时 间 。 
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F， 整 张 电 子 表 格 也 需要 几 个 小 
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A B CG D 3 

1 CensusTract State County POP2010 
9841 06075010500 CA San Francisco 2685 
9842 06075010600 CA San Francisco 3894 
9843 06075010700 CA San Francisco 5592 
9844 06075010800 CA San Francisco 4578 
9845 /06075010900 CA San Francisco 4320 
9846 06075011000 CA San Francisco 4827 
9847 /06075011100 CA San Francisco 5164 
K 4 bh| Population by Census Tract /%3 
Ready | 加 | 





12-2 censuspopdata.xlsx 电子 表格 


在 这 个 项 目 中 ， 你 要 编写 一 个 脚本 ， 从 人 口 普 查 电子 表格 文件 中 读 取 数 据 ， 六 
在 几 秒 钟 内 计算 出 每 个 县 的 统计 值 。 
下 面 是 程序 要 做 的 事 : 
。 从 Excel 电子 表格 中 读 取 数据 。 
。 计算 每 个 县 中 普查 区 的 数目 。 
。 计算 每 个 县 的 总 人 口 。 
。 打印 结果 。 
这 意味 着 代码 需要 完成 下 列 任务 : 
。 用 openpyxl 模块 打开 Excel 文档 并 读 取 单 元 格 。 
。 计算 所 有 普查 区 和 人 口 数 据 ， 将 它 保 存 到 一 个 数据 结构 中 。 
。 利用 pprint 模块 ， 将 该 数据 结构 写 入 一 个 扩展 名 为 .py 的 文本 文件 。 
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第 1 步 : 读 取 电子 表格 数据 
censuspopdata.xlsx 电子 表格 中 只 有 一 张 表 ， 名 为 Population by Census Tract'。 
一 行 都 保存 了 一 个 普查 区 的 数据 。 列 分 别 是 普查 区 的 编号 (A)， 州 的 简称 (B)， 县 
的 名 称 〈C)， 普 查 区 的 人 口 (D)。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 。 将 文件 保存 为 readCensusExcel.py。 
#! python3 


# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 





























© import openpyxl1, pprint 
print('Opening workbook...') 

@ wb = openpyx1.1oad workbook('censuspopdata.xlsx') 

目 sheet = wb.get_ sheet by name('Population by Census Tract ) 
countyData = {} 


# TODO: Fill in countyData with each county's population and tracts. 
print('Reading rows...') 
@ for row in range(2, sheet.get highest row() + 1): 
# Each row in the spreadsheet has data for one census tract. 
State = sheet['B' + str(row)].value 
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County = sheet['C' + str(row)].value 
pop = sheet['D' + str(row)].value 


# TODO: Open a new text file and write the contents of countyData to it. 

这 段 代码 导入 了 openpyxl 模块 ， 也 导入 了 pprint 模块 ， 你 用 后 者 来 打印 最 终 的 
的 数据 @。 然 后 代码 打开 了 censuspopdata.xlsx 文件 @@， 取 得 了 包含 人 口 普 查 数据 
的 工作 表 @， 开 始 迭 代 它 的 行 @。 
请 注意 ， 你 也 创建 了 一 个 countyData 变量 ， 它 将 包含 你 计算 的 每 个 县 的 人 口 和 
普查 区 数目 。 但 在 它 里 面 存储 任何 东西 之 前 ， 你 应 该 确定 它 内 部 的 数据 结构 。 














































































































第 2 步 : 填充 数据 结构 
保存 在 countyData 中 的 数据 结构 将 是 一 个 字典 ， 以 州 的 简称 作为 键 。 每 个 州 的 
简称 将 映射 到 另 一 个 字典 ， 其 中 的 键 是 该 州 的 县 的 名 称 。 每 个 县 的 名 称 又 映射 到 一 
个 字典 , 该 字典 只 有 两 个 键 , 'tracts' 和 'bop'。 这 些 键 映射 到 普查 区 数目 和 该 县 的 人 口 。 


例如 ， 该 字典 可 能 类 似 于 : 


{'AK': {'Aleutians East': {'pop': 3141, 'tracts': 1}, 
'Aleutians West': {'pop': 5561, 'tracts': 2}, 
'Anchorage': {'pop': 291826, 'tracts': 55}, 
'Bethel': {'pop': 17013, 'tracts': 3}, 
'Bristol Bay': {'pop': 997, 'tracts': 1}, 
--SNip-- 


如 果 前 面 的 字典 保存 在 countyData 中 ， 下 面 的 表达 式 求 值 结果 如 下 : 


>>> countyData[ 'AK']['Anchorage']['pop'] 
291826 

>>> CountyData[ 'AK']['Anchorage']['tracts'] 
55 














































































































一 般 来 说 ，countyData 字典 中 的 键 看 起 来 像 这 样 : 


countyData[state abbrevl[countyll['tracts'] 
countyData[state abbrev][county][' pop '] 


既然 知道 了 countyData 的 结构 ， 就 可 以 编写 代码 ， 用 县 的 数据 填充 它 。 将 下 面 
的 代码 添加 到 程序 的 末尾 : 
#! python 3 


# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 





















































--SNip-- 
for row in range(2, sheet.get highest row() + 1): 
# Each row in the spreadsheet has data for one census tract. 


State = sheet['B' + str(row)].value 
county = sheet['C' + str(row)].value 
pop = sheet['D' + str(row)].value 


# Make sure the key for this state exists. 
0 countyData.setdefault(state, {}) 
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# Make sure the key for this county in this state exists. 


© countyData[state] .setdefault(county, {'tracts': 0, 'pop': 0}) 
# Each row represents one census tract, so increment by one. 
[32 countyData[statel[county]['tracts'] += 1 
# Increase the county pop by the pop in this census tract. 
49 countyData[statel[county]['pop'] += int(pop) 


# TODO: Open a new text file and write the contents of countyData to it. 


最 后 的 两 行 代码 执行 实际 的 计算 工作 ， 在 for 循环 的 每 次 迭代 中 ， 人 针对 当前 的 
， 增 加 tracts 的 值 @， 并 增加 pop 的 值 @。 
其 他 代码 存在 是 因为 ， 只 有 countyData 中 存在 的 键 ， 你 才能 引用 它 的 值 。( 也 
就 是 说 ， 如 果 'AK' 键 不 存在 ，countyData['AK']['Anchorage']['tracts'] += 1 将 导致 一 个 
错误 )。 为 了 确保 州 简称 的 键 存 在 ， 你 需要 调用 setdefault() 方 法 ， 在 state 还 不 存在 
时 设置 一 个 默认 值 @。 
正如 countyData 字典 需要 一 个 字典 作为 每 个 州 缩写 的 值 ， 这 样 的 字典 又 需要 
个 字典 ,作为 每 个 县 的 键 的 值 @。 这 样 的 每 个 字典 又 需要 键 'tracts' 和 'pop'， 它 们 的 初 
台 值 为 整数 0 (如 果 这 个 字典 的 结构 令 你 混淆 ， 回 去 看 看 本 节 开 始 处 字典 的 例子 )。 
如 果 键 已 经 存在 ，setdefault0 不 会 做 任何 事情 ， 因 此 在 for 循环 的 每 次 迭代 中 调 
它 不 会 有 问题 。 





























































































































































































































第 3 步 : 将 结果 写 入 文件 

for 循环 结束 后 ，countyData 字典 将 包含 所 有 的 人 口 和 普查 区 信息 ， 以 县 和 州 为 
键 。 这 时 ， 你 可 以 编号 更 多 代码 ， 将 数据 写 入 文本 文件 或 另 一 个 Excel 电子 表格 。 
目前 , 我 们 只 是 使 用 pprintpformatO 函 数 ， 将 变量 字典 的 值 作为 一 个 巨大 的 字符 串 ， 
写 入 文件 census2010.py。 在 程序 的 末尾 加 上 以 下 代码 〈 确 保 它 没有 缩 进 ， 这 样 它 就 
在 for 循环 之 外 ): 


#! python 3 

# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 

--SNip-- 



















































































for row in range(2, sheet.get highest row() + 1): 
--SNip-- 


# Open a new text file and write the contents of countyData to it. 


print('Writing results...') 
resultFile = open('census2010.py', 'w') 
resultFile.write('allData = ' + pprint.pformat(countyData)) 


resultFile.close() 
print('Done.') 


pprint.pformatO) 函 数 产 生 一 个 字符 串 ， 它 本 身 就 是 格式 化 好 的 、 有 效 的 Python 
代码 。 将 它 输 出 到 文本 文件 census2010.py， 你 就 通过 Python 程序 生成 了 一 个 Python 
程序 ! 这 可 能 看 起 来 有 点 复杂 ， 但 好 处 是 你 现在 可 以 导入 census2010.py， 就 像 任何 其 
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他 Python 模块 一 样 。 在 交互 式 环境 中 , 将 当前 工作 目录 变更 到 新 创建 的 文件 所 在 的 
文件 夹 〈 在 我 的 笔记 本 上 ， 就 是 C:\Python34)， 然 后 导入 它 : 

>>> import os 

>>> os.chdir('C:\\Python34') 

>>> import census2010 

>>> census2010.allData['AK']['Anchorage'] 

{'pop': 291826, 'tracts': 55} 

>>> anchoragePop = census2010.allData['AK']['Anchorage']['pop'] 

>>> print('The 2010 population of Anchorage was ' + str(anchoragePop)) 

The 2010 population of Anchorage was 291826 


readCensusExcel.py 程序 是 可 以 扔 掉 的 代码 : 当 你 把 它 的 结果 保存 为 census2010.py 
之 后 ， 就 不 需要 再 次 运行 该 程序 了 。 任何 时 候 ， 只 要 需要 县 的 数据 ， 就 可 以 执行 import 
census2010。 

手工 计算 这 些 数据 可 能 需要 数 小 时 ， 这 个 程序 只 要 几 秒 钟 。 利 用 OpenPyXL， 可 
以 毫 无 困难 地 提取 保存 在 Excel 电子 表格 中 的 信息 , 并 对 它 进行 计算 。 从 http://nostarch. 
com/automatestuff/ 可 以 下 载 这 个 完整 的 程序 。 





































































































第 4 步 : 类 似 程序 的 思想 
许多 公司 和 组 织 机 构 使 用 Excel 来 保存 各 种 类 型 的 数据 ， 电 子 表格 会 变 得 庞大 ， 这 
并 不 少见 。 解 析 Excel 电子 表格 的 程序 都 有 类 似 的 结构 : 它 加载 电 子 表格 文件 ， 准 备 一 
些 变量 或 数据 结构 ， 然 后 循环 遍历 电子 表格 中 的 每 一 行 。 这 样 的 程序 可 以 做 下 列 事情 : 
。 比较 一 个 电子 表格 中 多 行 的 数据 。 
。 打开 多 个 Excel 文件 ， 跨 电子 表格 比较 数据 。 
。 检查 电子 表格 是 否 有 空 行 或 无 效 的 数据 ， 如 果 有 就 警告 。 
。 从 电子 表格 中 读 取 数据 ， 将 它 作 为 Python 程序 的 输入 。 

































































































































































12.5 写 人 Excel 文档 


OpenPyXL 也 提供 了 一 些 方法 写 入 数据 ， 这 意味 着 你 的 程序 可 以 创建 和 编辑 电子 
表格 文件 。 利 用 Python， 创 建 一 个 包含 几 千 行 数据 的 电子 表格 是 非常 简单 的 。 





















































12.5.1 创建 并 保存 Excel 文档 


调用 openpyxl.WorkbookO 函 数 ， 创 建 一 个 新 的 空 Workbook 对 象 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> import Openpyx1 

>>> wb = openpyx1.Workbook() 

>>> wb.get sheet names() 
['Sheet'] 

>>> Sheet = wb.get active sheet() 
>>> sheet.title 
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"Sheet ， 

>>> Sheet.title = 'Spam Bacon Eggs Sheet' 
>>> WwWb.get_sheet_names() 

['Spam Bacon Eggs Sheet '] 


工作 短 将 从 一 个 工作 表 开 始 ， 名 为 Sheet。 你 可 以 将 新 的 字符 串 保 存在 它 的 title 
属性 中 ， 从 而 改变 工作 表 的 名 字 。 

当 修改 Workbook 对 象 或 它 的 工作 表 和 单元 格 时 ， 电 子 表格 文件 不 会 保存 ,除非 你 调 
] save0) 工 作 敌 方法 。 在 交互 式 环境 中 输入 以 下 代码 (让 example.xlsx 处 于 当前 工 
作 目 录 ): 


>>> import openpyx1 

>>> wb = openpyxl.load workbook('example.xlsx') 
>>> Sheet = wb.get active sheet() 

>>> Sheet.title = 'Spam Spam Spam' 






































i. 














>>> wb.save('example copy.xlsx') 

这 里 ， 我 们 改变 了 工作 表 的 名 称 。 为 了 保存 变更 ， 我 们 将 文件 名 作为 字符 串 传递 
给 save0 方 法 。 传 入 的 文件 名 与 最 初 的 文件 名 不 同 , 例如 example_copyxlsx',， 这 将 变更 
保存 到 电子 表格 的 一 份 拷贝 中 。 

当 你 编辑 从 文件 中 加 载 的 一 个 电子 表格 时 ， 总 是 应 该 将 新 的 、 编 辑 过 的 电子 表 
格 保存 到 不 同 的 文件 名 中 。 这 样 ， 如 果 代码 中 有 缺陷 ， 导 致 新 的 保存 到 文件 中 数 寺 
不 对 或 论 误 ， 还 有 最 初 的 电子 表格 文件 可 以 处 理 。 
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12.5.2 ”创建 和 删除 工作 表 
利用 create_sheet() and remove_sheet0 方 法 ， 可 以 在 工作 筹 中 添加 或 删除 工作 表 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl1.Workbook() 

>>> WwWb.get_sheet_names() 

['Sheet'] 

>>> wb.create sheet() 

<Worksheet "Sheet1"> 

>>> wb.get sheet names() 

['Sheet', 'Sheet1'] 

>>> wb.create sheet(index=0, title='First Sheet') 
<Worksheet "First Sheet"> 

>>> wb.get sheet names() 

['First Sheet', 'Sheet', 'Sheet1'] 

>>> wb.create sheet(index=2, title='Middle Sheet') 
<Worksheet "Middle Sheet"> 

>>> wb.get sheet names() 

['First Sheet', 'Sheet', 'Middle Sheet', 'Sheet1'] 


create_sheet() 方 法 返回 一 个 新 的 Worksheet 对 象 ， 名 为 SheetX， 它 默认 是 工作 
短 的 最 后 一 个 工作 表 。 或 者 ， 可 以 利用 index 和 title 关键 字 参 数 ， 指 定 新 工作 表 的 
索引 或 名 称 。 

继续 前 面 的 例子 ， 输 入 以 下 代码 : 
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>>> WwWb.get_sheet_names() 

['First Sheet', 'Sheet', 'Middle Sheet', 'Sheet1'] 

>>> wb.remove sheet(wb.get sheet by name('Middle Sheet')) 
>>> wb.remove sheet(wb.get sheet by name('Sheet1')) 

>>> wb.get sheet names() 

['First Sheet', 'Sheet'] 


remove_sheet0 方 法 接受 一 个 Worksheet 对 象 作为 其 参数 ， 而 不 是 工作 表 名 称 的 字符 

串 。 如 果 你 只 知道 要 删除 的 工作 表 的 名 称 ， 就 调用 get_sheet_by_name()， 将 它 的 返 
值 传 入 remove_sheetO。 
在 工作 短 中 添加 或 删除 工作 表 之 后 ， 记 得 调用 save() 方 法 来 保存 变更 。 
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12.5.3 ”将 值 写 入 单元 格 


12.6 

















将 值 写 入 单元 格 ， 很 像 将 值 写 入 字典 中 的 键 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl1.Workbook() 

>>> Sheet = wb.get sheet by name('Sheet') 
>>> sheet['A1'] = 'Hello world!’' 

>>> sheet['A1'].value 

'Hello world!' 


如 果 你 有 单元 格 坐 标的 字符 串 ， 可 以 像 字 典 的 键 一 样 ， 将 它 用 于 Worksheet 对 
象 ， 指 定 要 写 入 的 单元 格 。 


















































页 日 : 更 新 一 个 电子 表格 





这 个 项 目 需 要 编写 一 个 程序 ， 更 新 产品 销售 电子 表格 中 的 单元 格 。 程序 将 遍 
历 这 个 电子 表格 ， 找 到 特定 类 型 的 产品 ， 并 更 新 它们 的 价格 。 请 从 http://nostarch.com/ 
automatestuff/ 下 载 这 个 电子 表格 。 图 12-3 展示 了 这 个 电子 表格 。 
























































A B C D EN 
i 1 |PRODUCE lcosTt PER POUND POUNDS SOLD TOTAL FE 
中 2 Potatoes 0.86 21.6 18.58 加 
3 ‘Okra 2.26 38.6 87.24 
中 4 Fava beans 2.69 32.8 88.23 
5 ‘Watermelon 0.66 27.3 18.02 
6 |Garlic 1.19 4.9 5.83 | 
7 Parsnips 2.27 和 和 人 
8 Asparagus 2.49 37.9 94.37 | 
9 Avocados 3.23 9.2 29.72 
10 Celery 3.07 28.9 88.72 | 
11 !Okra 2.26 加 40 90.4 E 
H 4 » MH| Sheet /4 中 4 ee a 
Ready | 固 | | 转 回 100% 【一 / UU (+) 








图 12-3 产品 销售 的 电子 表格 
每 一 行 代表 一 次 单独 的 销售 。 列 分 别 是 销售 产品 的 类 型 (A)、 产 品 每 磅 的 价格 
(B)、 销 售 的 磅 数 〈C)， 以 及 这 次 销售 的 总 收入 。TOTAL 列 设 置 为 Excel 公式 ， 将 
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每 磅 的 成 本 乘 以 销售 的 磅 数 ， 并 将 结果 取 整 到 分 。 有 了 这 个 公式 ， 如 果 列 了 B 或 C 发 
生变 化 ，TOTAL 列 中 的 单元 格 将 自动 更 新 。 
现在 假设 Garlic、Celery 和 Lemons 的 价格 输入 的 不 正确 。 这 让 你 面 对 一 项 无 聊 
的 任务 : 遍历 这 个 电子 表格 中 的 几 千 行 ， 更 新 所 有 garlic、celery 和 lemon 行 中 每 磅 
的 价格 。 你 不 能 简单 地 对 价格 查找 蔡 换 ， 因 为 可 能 有 其 他 的 产品 价格 一 样 ， 你 不 希 
望 错误 地 “更 正 ?”。 对 于 几 千 行 数据 ， 手 工 操作 可 能 要 几 小 时 。 但 你 可 以 编写 程序 ， 
几 秒 钟 内 完成 这 个 任务 。 
你 的 程序 做 下 面 的 事情 : 
。 循环 遍历 所 有 行 。 
。 如 果 该 行 是 Garlic、Celery 或 Lemons， 更 新 价格 。 
这 意味 着 代码 需要 做 下 面 的 事情 : 
。 打开 电子 表格 文件 。 
。 针对 每 一 行 ， 检 查 列 A 的 值 是 不 是 Celery、Garlic 或 Lemon。 
。 如 果 是 ， 更 新 列 B 中 的 价格 。 
将 该 电子 表格 保存 为 一 个 新 文件 〈 这 样 就 不 会 丢失 原来 的 电子 表格 ， 以 防 万 一 )。 
















































































































































































































































































第 1 步 : 利用 更 新 信息 建立 数据 结构 




















需要 更 新 的 价格 如 下 : 
Celery 1.19 
Garlic 3.07 
Lemon 1.27 
你 可 以 像 这 样 编写 代码 : 
if produceName == 'Celery': 
cell0bj = 1.19 
if produceName == 'Garlic': 
cell0bj = 3.07 
if produceName == 'Lemon': 


cell0bj = 1.27 

这 样 硬 编码 产品 和 更 新 的 价格 有 点 不 优雅 。 如 果 你 需要 用 不 同 的 价格 ,或 针对 
不 同 的 产品 ， 再 次 更 新 这 个 电子 表格 ， 就 必须 修改 很 多 代码 。 每 次 修改 代码 ， 都 有 
引入 缺陷 的 风险 。 

更 灵活 的 解决 方案 ， 是 将 正确 的 价格 信息 保存 在 字典 中 ， 在 编写 代码 时 ， 利 用 
这 个 数据 结构 。 在 一 个 新 的 文件 编辑 器 窗口 中 ， 输 入 以 下 代码 ; 


#! python3 
# updateProduce.py - Corrects costs in produce sales spreadsheet. 




































































import openpyxl 


wb = openpyx1.1load workbook('produceSales.xlsx') 
sheet = wh.get sheet by name('Sheet') 
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# The produce types and their updated prices 
PRICE UPDATES = {'Garlic': 3.07， 

'Celery': 1.19, 

'Lemon': 1.27} 


# TODO: Loop through the rows and update the prices. 


将 它 保存 为 updateProduce.py。 如 果 需 要 再 次 更 新 这 个 电子 表格 ， 只 需要 更 新 
PRICE_UPDATES 字典 ， 不 用 修改 其 他 代码 。 





















































第 2 步 : 检查 所 有 行 ， 更 新 不 正确 的 价格 
程序 的 下 一 部 分 将 循环 遍历 电子 表格 中 的 所 有 行 。 将 下 面 代 码 添加 到 
updateProduce.py 的 末尾 : 




















#! python3 
# updateProduce.py - Corrects costs in produce sales spreadsheet. 


- -SNip-- 


# Loop through the rows and update the prices. 
for rowNum in range(2, sheet.get highest row()): # skip the first row 
produceName = sheet.cell(row=rowNum, column=1) .value 
if produceName in PRICE_UPDATES : 
sheet.cell(row=rowNum, column=2).value = PRICE UPDATES[produceName] 


@e@ee 


@ wb.save('updatedProduceSales. xlsx') 


我 们 从 第 二 行 开始 循环 遍历 ， 因 为 第 1 行 是 标题 @。 第 1 列 的 单元 格 〈 即 列 A) 将 
保存 在 变量 produceName 中 @。 如果 produceName 的 值 是 PRICE_UPDATES 字典 中 的 一 
个 键 日 , 你 就 知道 , 这 行 的 价格 必须 修改 。 正 确 的 价格 是 PRICE_UPDATIES[produceName]。 

请 注意 ,使 用 PRICE_UPDATES 让 代码 变 得 多 么 干净 。 只 需要 一 条 让 语句 ， 而 

不 是 像 f produceName == 'Garlic' 这 样 的 代码 ， 就 能 够 更 新 所 有 类 型 的 产品 。 因 为 代 
码 没 有 硬 编码 产品 名 称 , 而 是 使 用 PRICE_UPDATES 字典 ,在 for 循环 中 更 新 价格 ， 
所 以 如 果 产 品 销售 电子 表格 需要 进一步 修改 ， 你 只 需要 修改 PRICE_UPDATES 字 
典 ， 不 用 改 其 他 代码 。 
在 遍历 整个 电子 表格 并 进行 修改 后 ,代码 将 Workbook 对 象 保 存 到 updatedProduceSales. 
xlsx@。 它 没有 履 写 原来 的 电子 表格 ， 以 防 万 一 程序 有 缺 隐 ， 将 电子 表格 改 错 。 
在 确认 修改 的 电子 表格 正确 后 ， 你 可 以 删除 原来 的 电子 表格 。 

你 可 以 从 http://nostarch.com/automatestuff/ 下 载 这 个 程序 的 完整 源 代码 。 
















































































































































































第 3 步 : 类 似 程序 的 思想 
因为 许多 办 公 室 职员 一 直 在 使 用 Excel 电子 表格 ,所 以 能 够 自动 编辑 和 写 入 Excel 
文件 的 程序 ， 将 非常 有 用 。 这 样 的 程序 可 以 完成 下 列 任 务 : 

。 从 一 个 电子 表格 读 取 数据 ， 写 入 其 他 电子 表格 的 茶 些 部 分 。 
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。 从 网 站 、 文 本 文件 或 剪贴 板 读 取 数 据 ， 将 它 写 入 电子 表格 。 
。 自动 清理 电子 表格 中 的 数据 。 例 如 ， 可 以 利用 正则 表达 式 ， 读 取 多 种 格式 的 电 
话 号 码 ， 将 它们 转换 成 单一 的 标准 格式 。 












































12.7 设置 单元 格 的 字体 风格 


设置 某 些 单元 格 行 或 列 的 字体 风格 ， 可 以 帮助 你 强调 电子 表格 中 重点 的 区 域 。 
例如 ， 在 这 个 产品 电子 表格 中 ， 程 序 可 以 对 potato、garlic 和 parsnip 等 行使 用 粗 体 。 
或 者 也 许 你 希望 对 每 磅 价格 超过 5 美元 的 行使 用 斜体 。 手 工 为 大 型 电子 表格 的 某 些 
部 分 设置 字体 风格 非常 令 人 厌烦 ， 但 程序 可 以 马上 完成 。 

为 了 定义 单元 格 的 字体 风格 ， 需 要 从 openpyxl.styles 模块 导入 Font0 和 Style0) 
from openpyxl.styles import Font, Style 

这 让 你 能 输入 FontO), 代替 openpyxl.styles.Font()〈 参 见 2.8 节 “ 导 入 模块 ”， 复 
习 这 种 方式 的 import 语句 )。 

这 里 有 一 个 例子 , 它 创建 了 一 个 新 的 工作 憩 , 将 Al 单元 格 设置 为 24 点 、 斜体。 
在 交互 式 环境 中 输入 以 下 代码 : 
>>> import openpyxl1 
>>> from openpyxl.styles import Font, Style 
>>> wb = openpyxl.Workbook() 
>>> Sheet = wb.get sheet by name('Sheet') 
>>> italic24Font = Font(size=24, italic=True) 
>>> style0bj = Style(font=italic24Font) 
>>> sheet['A'].style/styleO0bj 
>>> sheet['A1'] = 'Hello wor1ld! 
>>> wb.save('styled.xlsx') 

OpenPyXL 模块 用 Style 对 象 来 表示 单元 格 字体 风格 设置 的 集合 , 字体 风格 保存 
在 Cell 对 象 的 style 属性 中 。 将 Style 对 象 赋 给 style 属性 ， 可 以 设置 单元 格 的 字体 
风格 。 

在 这 个 例子 中 ，Font(size=24, italic=True) 返 回 一 个 Font 对 象 ， 保 存在 italic24Font 
中 @ 。Font0 的 关键 字 参 数 size 和 italic， 配 置 了 Font 对 象 的 style 属性 。 这 个 Font 
对 象 被 传递 给 Style(font=italic24Font) 调 用 ， 该 函数 的 返回 值 保存 在 styleObj 中 @。 如 
果 styleObj 被 赋 给 单元 格 的 style 属性 @， 所 有 字体 风格 的 信息 将 应 用 于 单元 格 Al。 
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12.8 ”Font 对象 


Font 对 象 的 style 属性 影响 文本 在 单元 格 中 的 显示 方式 。 要 设置 字体 风格 属性 ， 就 
向 FontO 函 数 传 入 关键 字 参 数 。 表 12-2 展示 了 Font0 函 数 可 能 的 关键 字 参 数 。 





























232 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 


表 12-2 Font style 属性 的 关键 字 参 数 








关键 字 参 数 数据 类 型 描述 

name 字符 串 字体 名 称 ， 诸 如 'Calibri' 
或 Times New Roman' 

size 整 型 大 小 点 数 

bold 布尔 型 True 表示 粗 体 

italic 布尔 型 True 表示 斜体 























可 以 调用 Font(0) 来 创建 一 个 Font 对 象 ， 并 将 这 个 Font 对 象 保 存在 一 个 变量 中 。 
然后 将 它 传递 给 Style0,， 得 到 的 Style 对 象 保存 在 一 个 变量 中 , 并 将 该 变量 赋 给 Cell 


对 象 的 style 属 怕 


>>> 
>>> 
>>> 
































import openpyx1 

from openpyxl.styles import Font, Style 
wb = openpyxl1.Workbook() 

Sheet = wb.get sheet by name('Sheet') 


fontobj1 = Font(name='Times New Roman', bold=True) 
style0bj1 = Style(font=font0bj1) 
sheet['A1'].style/styleO0bj 

sheet['A1'] = 'Bold Times New Roman 


font0Obj2 = Font(size=24, italic=True) 
style0bj2 = Style(font=font0bj2) 
sheet['B3'].style/style0bj 
sheet['B3'] = '24 pt Italic' 


wh.save('styles.xlsx') 











E。 例 如 ， 下 面 的 代码 创建 了 各 种 字体 风格 : 




















这 里 ， 我 们 将 一 个 Font 对 象 保存 在 fontObjl : 























该 对 象 保存 在 styleObjl 中 , 然后 将 Al 的 Cell 对 象 


们 名 





对 另 一 个 Font 对 象 和 Style 对 象 重复 这 个 过 程 ， 

















运行 


格 ， 


true 














如 图 12-4 所 示 。 





的 style 属性 设置 为 styleObj。 我 
设置 第 二 个 单元 格 的 字体 风格 。 











这 段 代码 后 ， 电 子 表格 中 Al 和 B3 单元 格 的 字体 风格 将 设置 为 自 定义 的 字体 风 





A B $4 
1 Bold Times New Roman 
2 


3 24 pt ltalic 


GS 





12-4 带 有 自 定义 字体 风格 的 电子 表格 





上 














对 于 单元 格 Al1， 我 们 将 字体 名 称 设置 为 Times 





New Roman'， 并 将 bold 设置 为 





， 这 样 我 们 的 文本 将 以 粗 体 Times New Roman 的 方式 显示 。 我 们 没有 指定 大 小 ， 
所 以 使 用 openpyxl 的 默认 值 11。 在 单元 格 B3 中 ， 我 们 的 文本 是 斜体 ， 大 小 是 24。 
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我 们 没有 指定 字体 的 名 称 ， 所 以 使 用 openpyxl 的 默认 值 Calibri。 


12.9 会 趟 


值 。 


添加 普通 的 值 一 样 。 例 如 : 


>>> 


单元 格 B1 到 B8 的 和 。 图 12-5 展示 了 它 的 效果 。 


>>> 














公式 以 一 个 等 号 开始 ， 可 以 配置 单元 格 ， 让 它 包 含 通过 其 他 单元 格 计 算得 到 的 
在 本 节 中 ， 你 将 利用 openpyxl 模块 ， 用 编程 的 方式 在 单元 格 中 添加 公式 ， 就 像 
































sheet['B9'] = '=SUM(B1:B8)' 


这 将 =SUM(B1:B8) 作 为 单元 格 B9 的 值 。 这 将 B9 单元 格 设置 为 一 个 公式 ， 计 香 









































Clipboard Font Alignment Nu 
B9 尘 二 | =SUM(B1:B8) 
A B 让 D E 

1 82 

。 11 

3 85 

4 18 

57 

6 51 

38 

8 42 

9 TOTAL: [ 384| 

10 

(4 4 HSheetl “Sheet2 “Sheet3 /1 

Ready | 固 | 











12-5 单元 格 B9 包含 了 一 个 公式 ， 计 算 单 元 格 Bl 到 B8 的 和 


为 单元 格 设置 公式 就 像 设置 其 他 文本 值 一 样 。 在 交互 式 环境 中 输入 以 下 代码 : 


import openpyx1 


















































>>> wb = openpyx1.Workbook() 


>>> 
>>> 
>>> 
>>> 


sheet = wb.get active sheet() 


sheet['A1'] = 200 
sheet['A2'] = 300 
sheet['A3'] = '=SUM(A1:A2)， 


>>> wb.save('writeFormula.xlsx') 


单元 格 Al 和 A2 分 别 设置 为 200 和 300。 单元 属 A3 设置 为 一 个 公式 , 求 出 Al 
和 A2 的 和 。 如 果 在 Excel 中 打开 这 个 电子 表格 ，A3 的 值 将 显示 为 500。 






































也 可 以 读 取 单 元 格 中 的 公式 ， 就 像 其 他 值 一 样 。 但 是 ， 如 果 你 希望 看 到 该 公式 


























的 计算 结果 ， 而 不 是 原来 的 公式 ， 就 必须 将 load_workbookO 的 data_only 关键 字 参 
数 设 置 为 True。 这 意味 着 Workbook 对 象 要 么 显示 公式 ， 要 么 显示 公式 的 结果 ， 不 



























































台 已 
有 








得 (但 是 针对 一 个 电子 表格 文件 ， 可 以 加 载 多 个 Workbook 对 象 )。 在 交互 式 环 











境 中 输入 以 下 代码 ， 看 看 有 无 data_only 关键 字 参 数 时 ， 加 载 工 作 敌 的 区 别 : 





234 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 


>>> import Oopenpyx1 

>>> wbhFormulas = openpyx1.1oad workbook('writeFormula.xlsx') 
>>> Sheet = wbFormulas.get active sheet() 

>>> sheet['A3'].value 

“=SUM(A1:A2) 


>>> WbDataonly = Openpyx1.1oad workbook('writeFormula.xlsx', data only=True) 
>>> Sheet = wbDataOnly.get active sheet() 

>>> sheet['A3'].value 

500 






































这 里 ， 如 果 调 用 load_workbookO 时 带 有 data_only=True，A3 单元 格 就 显示 为 
500， 即 公式 的 结果 ， 而 不 是 公式 的 文本 。 

Excel 公式 为 电子 表格 提供 了 一 定 程度 的 编程 能 力 ， 但 对 于 复杂 的 任务 ， 很 快 
就 会 失去 控制 。 例 如 ， 即 使 你 非常 熟悉 Excel 的 公式 ， 要 想 弄 清楚 =IFERROR 
(TRIMUF(LEN(VLOOKUP(F7,Sheet2!$A$1:$B$10000,2,FALSE))>0,SUBSTITUTE 
(VLOOKUP (F7, Sheet2!$A$1:$B$10000, 2, FALSE),"",""),")), "0 实际 上 做 了 什么 ， 
也 是 一 件 非 常 头痛 的 事 。Python 代码 的 可 读 性 要 好 得 多 。 

























































































12.10 ”调整 行 和 列 


在 Excel 中 ， 调 整 行 和 列 的 大 小 非常 容易 ， 只 要 点 击 并 拖 动 行 的 边缘 ， 或 列 的 
头 部 。 但 如 果 你 需要 根据 单元 格 的 内 容 来 设置 行 或 列 的 大 小 ， 或 者 希望 设置 大 量 电 
子 表格 文件 中 的 行列 大 小 ， 编 写 Python 程序 来 做 就 要 快 得 多 。 

行 和 列 也 可 以 完全 隐藏 起 来 。 或 者 它们 可 以 这 样 就 总 是 显示 在 屏幕 
上 ， 如 果 打 印 该 电子 表格 ， 它 们 就 出 现在 每 一 页 上 《这 很 适合 做 表 头 )。 














































































































12.10.1 设置 行 高 和 列 宽 
Worksheet 对 象 有 row_dimensions 和 column_dimensions 属性 ， 控 制 行 高 和 列 宽 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyx1.Workbook() 

>>> Sheet = wb.get active sheet() 

>>> sheet['A1'] = 'Tall row' 

>>> sheet['B2'] = 'Wide column’' 

>>> sheet.row dimensions[1].height = 70 

>>> sheet.column dimensions['B'].width = 20 
>>> wb.save('dimensions.xlsx') 
































工作 表 的 row_dimensions 和 column _ dimensions 是 像 字 样 的 值 ，row_ 
dimensions 包含 RowDimension 对 象 , column_dimensions 包含 ColumnDimension 对 象 。 
在 row_dimensions 中 ， 可 以 用 行 的 编号 来 访问 一 个 对 象 〈 在 这 个 例子 中 ,是 1 或 )。 在 
column_dimensions 中 ， 可 以 用 列 的 字母 来 访问 一 个 对 象 〈 在 这 个 例子 中 ， 是 A 或 B)。 
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dimensions.xlsx 电子 表格 如 图 12-6 所 示 。 








A B 
1 Tallrow 
2 Wide column 
|e 





12-6 行 1 和 列 B 设 置 了 更 大 的 高 度 和 宽度 














一 旦 有 了 RowDimension 对 象 ， 就 可 以 设置 它 的 高 度 。 
象 ， 就 可 以 设置 它 的 宽度 。 行 的 高 度 可 以 设置 为 0 到 409 之 间 的 整数 或 浮 点 值 。 
个 值 表示 高 度 的 点 数 。 一 点 等 于 1/72 英寸 。 默 认 的 行 高 是 12.7$。 列 宽 可 以 设置 为 





















































到 255 之 间 的 整数 或 浮 点 数 。 这 个 值 表示 使 用 默认 字体 大 小 时 (11 点 )， 单 元 格 可 以 














示 的 字符 数 。 默 认 的 列 宽 是 8.43 个 字符 。 列 宽 为 零 或 行 高 为 零 ， 


12.10.2 合并 和 拆 分 单元 格 























利用 merge_cells0 工 作 表 方法 ， 可 以 将 一 个 矩形 区 域 中 的 单元 格 合并 为 一 个 单 


元 格 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import Openpyx1 

>>> wb = openpyx1.Workbook() 

>>> Sheet = wb.get active sheet() 
>>> sheet.merge cells('A1:D3') 


>>> sheet['A1'] = 'Twelve cells merged together.' 
>>> sheet.merge cells('C5:D5') 
>>> sheet['C5'] = 'Two merged cells.' 


>>> wb.save('merged.xlsx') 

















merge_cells() 的 参数 是 一 个 字符 串 ， 表 示 要 合并 的 矩形 区 域 左 
单元 格 : 'A1:D3' 将 12 个 单元 格 合并 为 一 个 单元 格 。 要 设置 这 些 合 六 















































口 

















如 果 运 行 这 段 代 码 ，merged.xlsx 看 起 来 如 











只 要 设置 这 一 组 合并 单元 格 左上 角 的 单元 格 的 值 。 





图 12-7 所 示 。 





A B 


12 个 单元 格 合并 到 一 起 








ee 
NI UPpOWNPpPp 


两 个 单元 格 合并 到 一 起 


D e 








图 12-7 在 电子 表格 中 合并 单元 格 
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旦 有 了 ColumnDimension 2- 























加 © 洲 








将 使 单元 格 隐藏 。 

















上 角 和 右 下 和 角 的 
F 后 单元 格 的 值 ， 











12.10.3 


























要 拆 分 单元 格 ， 就 调用 unmerge_cells0 工 作 表 方法 。 在 交互 式 环境 中 输入 以 下 














代码 : 


>>> import Openpyx1 

>>> wb = openpyxl.load workbook('merged.xlsx') 
>>> Sheet = wb.get active sheet() 

>>> sheet.unmerge cells('A1:D3') 

>>> sheet.unmerge cells('Cc5:D5') 

>>> wb.save('merged.xlsx') 











如 果 保 存 变 更 ， 然 后 查看 这 个 电子 表格 ， 就 会 看 到 合并 的 单元 格 恢复 成 一 些 独 






































立 的 单元 格 。 


En 结 窗 格 




















对 于 太 大 而 不 能 一 屏 显 示 的 电子 表格 , “冻结 ”顶部 的 几 行 或 最 左边 的 几 列 ， 是 
很 有 帮助 的 。 例 如 ,冻结 的 列 或 行 表 头 ， 就 算 用 户 深 动 电子 表格 ， 也 是 始终 可 见 的 。 
这 称 为 “冻结 窗 格 ”。 在 OpenPyXL 中 ， 每 个 Worksheet 对 象 都 有 一 个 freeze_panes 
上 边 的 所 






















































































有 行 和 左边 的 所 有 列 都 会 冻结 ， 但 单元 格 所 在 的 行 和 列 不 会 冻结 。 




















属性 ， 可 以 设置 为 一 个 Cell 对 象 或 一 个 单元 格 坐标 的 字符 串 。 请 注意 ， 单 元 格 
































要 解冻 所 有 的 单元 格 ， 就 将 freeze_panes 设置 为 None 或 Al'。 表 12-3 展示 了 
































freeze_panes 设 定 的 一 些 例子 ， 以 及 哪些 行 或 列 会 冻结 。 


表 12-3 冻结 窗 格 的 例子 











freeze_panes 的 设置 冻结 的 行 和 列 
sheet.freeze_panes = 'A2， 行 1 
sheet.freeze_panes = BT 列 A 
sheet.freeze_panes = 'C1' 列 A 和 列 B 
sheet.freeze_panes = 'C2' 行 1 和 列 A 和 列 B 
sheet.freeze_panes = 'Al' 或 没有 冻结 窗 格 











sheet.freeze_panes = None 




















确保 你 有 来 自 http://nostarch.com/automatestuff/ 的 产品 销售 电子 表格 。 然 后 在 交 





























互 式 环 境 中 输入 以 下 代码 : 


>>> import openpyx1 

>>> wb = openpyxl1.1load workbook('produceSales.xlsx') 
>>> Sheet = wb.get active sheet() 

>>> sheet.freeze panes = 'A2' 

>>> wb.save('freezeExample.xlsx') 




















如 果 将 freeze_panes 属性 设置 为 'A2', 行 1 将 永远 可 见 , 无 论 月 
动 到 何 处 ， 如 图 12-8 所 示 。 








昌 户 将 电 








子 表 


格 深 
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SA Green heanc 
NH #4b | Sheet /和 





| Ready 


P1662 ” 大 
人 B Cc D E 
| 1 FRUT COsTPERPOUND POUNDSsOLD ToTAL 
N1591 Fava beans 2.69 0.7 1.88 
N1592 Grapefruit 0.76 28.5 21.66 
|1593 Green peppers 1.89 37 69.93 
N1594 Watermelon 0.66 30.4 20.06 
1595 Celery 3.07 36.6 112.36 
1596 Strawberries 兢 . 所 导 
2 57 <0n 














12-8 将 reeze_panes 设 置 为 A2'"， 行 1 将 永远 可 见 ， 无 论 用户 如 何 向 下 深 动 


12.10.4 图 表 



































openpyxl 支持 利用 工作 表 
要 创建 图 表 ， 需 要 做 下 列 事 
， 从 一 个 矩 














图 。 























. 创建 一 个 Chart 对 象 。 











DD 一 














变量 。 
6. 


Reference 对 象 需要 一 些 解释 。 


创建 的 : 





函数 并 传 入 3 个 参数 


单元 格 的 数据 ， 创 建 条 
情 : 
区 域 选择 的 单元 格 ， 创 建 一 个 Reference 对 象 。 
.通过 传 入 Reference 对 象 ， 创 建 一 个 Series 对 象 。 














由 





.将 Series 对 象 添加 到 Chart 对 象 。 
. 可 选 地 设置 Chart 对 象 的 drawing.top 、drawing.left、drawing.width 和 drawing.height 


将 Chart 对 象 添 加 到 Worksheet 对 象 。 














图 、 折 线 图 、 散 点 




















Reference 对 象 是 通过 调用 


1. 包含 图 表 数 据 的 Worksheet 对 象 。 


2. 两 个 整数 的 元 组 ， 代 表 4 


























据 : 元 组 中 第 一 个 整数 是 行 ， 第 
3. 两 个 整数 的 元 组 ， 代 表 
据 : 元 组 中 第 一 个 整数 是 行 ， 

















元 
图 





下 形 选择 





矩形 选择 





区 域 的 左上 角 单 元 格 ， 该 区 域 包含 





图 和 饼 


openpyxl.charts. Reference() 





二 个 整数 是 列 。 请 注意 第 一 行 是 1， 不 是 0。 
区 域 的 右 下 角 单 元 格 ， 该 区 域 包含 
第 二 个 整数 是 列 。 
12-9 展示 了 坐标 参数 的 一 些 例子 。 





























AI 大 B3 - 下 
A B C [ A B D A 
1 1 1 
2 2 2 
; ee 
6 6 6 
7 7 7 
1 TD 3 
11 11 11 
Ma Sheetl | Sheet1 Sh ee | 4 SS 
headi “于 | hy | 刁 | [Eey | 
12-9 从 左 到 右 : (1 D, (10, 1); (3, 2), (6, 4); (5, 3), (5, 3) 


238 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 




















在 交互 式 环境 中 输入 以 下 代码 ， 创 建 一 个 条 形 图 ， 将 它 添 加 到 电子 表格 ， 


>>> import 0penpyx1 

>>> wb = openpyx1.Workbook() 

>>> Sheet = wb.get active sheet() 

>>> for i in range(1, 11): # create some data in column A 
sheet['A' + str(i)] = i 











>>> ref0bj = openpyxl.charts.Reference(sheet, (1, 1), (10, 1)) 
>>> series0bj = openpyxl.charts.Series(ref0bj, title='First series') 


>>> chart0bj = openpyxl.charts.BarChart() 
>>> chart0bj.append(series0bj) 


>>> chartobj.drawing.top = 50 # Set the position 
>>> Chartobj.drawing.left = 100 
>>> chartobj.drawing.width = 300 # Set the Size 


>>> chart0bj.drawing.height = 200 


>>> sheet.add chart(chart0bj) 
>>> wb.save('sampleChart.xlsx') 


得 到 的 电子 表格 ， 如 图 12-10 所 示 。 
27 FE 


有 ] 
EE |a pixels 


First series 























+ 
100 pixels 200 pixels 
high 





300 pixels wide 





12-10 添加 了 一 个 图 表 的 电子 表格 














我 们 可 以 调用 openpyxl.charts.BarChart()， 创 建 一 个 条 形 图 。 也 可 以 调用 
openpyxl.charts.LineChart() 、openpyxl.charts.ScatterChartO 〇 和 和 openpyxl.charts.PieChart()， 创 | 
建 折线 图 、 散 点 图 和 饼 图 。 

遗憾 的 是 ， 在 OpenPyXL 的 当前 版 本 中 〈2.1.4)，load_workbook0 不 会 加 载 Excel 
文件 中 的 图 表 。 即 使 Excel 文件 包含 图 表 ， 加 载 的 Workbook 对 象 也 不 会 包含 它们 。 
如 果 加 载 一 个 Workbook 对 象 ， 然 后 马上 保存 到 同样 的 .xlsx 文件 名 中 ， 实 际 上 就 会 
删除 其 中 的 图 表 。 



























































第 12 章 处理 Excel 电子 表格 239 


12.11 小 结 


处 理 信 息 是 比较 难 的 部 分 ， 通 常 不 是 处 理 本 身 难 ， 而 是 为 程序 得 到 正确 格式 的 
数据 较 难 。 一 旦 你 将 电子 表格 载 入 Python， 就 可 以 提取 并 操作 它 的 数据 ， 比 手工 操 
作 要 快 得 多 。 

你 也 可 以 生成 电子 表格 ， 作 为 程序 的 输出 。 所 以 如 果 同 事 需 要 将 包含 几 千 条 销 
售 合同 的 文本 文件 或 PDF 转换 成 电子 表格 文件 , 你 就 不 需要 无 聊 地 将 它 找 贝 粘贴 到 
Excel 中 。 

有 了 openpyxl 模块 和 一 些 编程 知识 ， 你 会 发 现 处 理 很 大 的 电子 表格 也 是 小 事 一 桩 。 








































































































































































































12.12 ”习题 


对 于 以 下 的 问题 ， 设 想 你 有 一 个 Workbook 对 象 保存 在 变量 wb 中 ， 一 个 
Worksheet 对 象 保存 在 sheet 中 ， 一 个 Cell 对 象 保存 在 cell 中 ， 一 个 Comment 对 象 
保存 在 comm 中 ， 一 个 Inage 对 象 保存 在 img 中 。 

1. openpyxlload_workbookO 函 数 返 回 什么 ? 

2. get_sheet_names() 工 作 短 方 法 返回 什么 ? 

3. 如 何 取得 名 为 'Sheet1' 的 工作 表 的 Worksheet 对 象 ? 

4. 如 何 取 得 工作 筹 的 活动 工作 表 的 Worksheet 对 象 ? 

5. 如 何 取得 单元 格 C5 中 的 值 ? 

6. 如 何 将 单元 格 C5 中 的 值 设置 为 "Hello"? 

7. 如 何 取得 表示 单元 格 的 行 和 列 的 整数 ? 

8. 工作 表 方 法 get_highest_column() 和 get_highest_ row0 返 回 什么 ? 这 些 返 回 值 
类 型 
9. 




































































的 类 型 是 什么 ? 
如 果 要 取得 列 M' 的 整数 下 标 ， 需 要 调用 什么 函数 ? 
10. 如 果 要 取得 列 14 的 字符 串 名 称 ， 需 要 调用 什么 函数 ? 
11. 如 何 取得 从 Al 到 Fl 的 所 有 Cell 对 象 的 元 组 
12. 如 何 将 工作 短 保 存 到 文件 名 example.xlsx? 
13. 如 何在 一 个 单元 格 中 设置 公式 ? 
14. 如 果 需 要 取得 单元 格 中 公式 的 结果 ， 而 不 是 公式 本 身 ， 必 须 先 做 什么 ? 
15. 如 何 将 第 5 行 的 高 度 设置 为 100? 
16. 如 何 设置 列 C 的 宽度 ? 
列 出 一 些 openpyxl 2.1.4 不 会 从 电子 表格 文件 中 加 载 的 功能 。 
18. 什么 是 冻结 窗 格 ? 
19. 创建 一 个 条 形 图 ， 需 要 调用 哪 5 个 函数 和 方法 ? 


240 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 
































_ 






































































































































12.13 ”实践 项 目 





作为 实践 ， 编 程 执行 以 下 任务 。 











12.13.1 乘法 表 
他 

















j 建 程序 multiplicationTable.py， 从 命令 行 接受 数字 


N， 在 一 个 Excel 电子 表格 


中 创建 一 个 NXN 的 乘法 表 。 例 如 ， 如 果 这 样 执行 程序 : 


py multiplicationTable.py 6 


它 应 该 创 


建 一 个 图 12-11 所 示 的 电子 表格 。 











mwNWaDumpawmhpirm 


行 1 和 列 A 应 该 月 


px 4 二 


12.13.2 ” 空 行 插入 程序 


创建 一 个 程序 blankRowInserterpy， 它 接受 两 个 整数 和 一 个 文件 名 
第 一 个 整数 称 为 N， 第 二 个 整数 称 为 M。 程 序 应 该 从 第 
样 执行 程序 : 








命令 4 


台 ， 在 电子 表格 














行 参 数 。 我 们 将 多 


B C D E F 
1 2 3 四 5 
1 2 3 4 5 
2 4 6 8 10 
3 6 9 12 15 
4 8 12 16 20 
5 10 15 20 25 
6 12 18 24 30 


12-11 在 电子 表格 中 生成 的 乘法 表 




















做 标签 ， 应 该 使 用 粗 体 。 











插入 M 个 空 行 。 例 如 ， 如 果 这 


python blankRowInserter.py 3 2 myProduce.xlsx 


执行 之 前 和 之 








电子 表格 ， 应 该 如 图 12-12 








后 的 


> 户 代 


字符 串 作 为 


和 行 开 








所 示 。 





| Al 
A B 


Potatoes celery 


Okra Okra 


< 
Ginger 


Corn 


Watermelk Cucumber Ginger 
Garlic 
Parsnips Okra 





ovoumbawhnblrm 


Fava bean' Spinach Grapefruit Grapes 


Apricots Eggplant Cherries Strawberri Apricot 
Cucumber Apples 
Asparagus Fava bean' Green cabl Grapefruit Ginger 
Avocados Watermelk Eggplant Grapes 


Al 
A B 


Celery 


Okra Okra 


后 Potatoes 
D = 
Yellow per Green bea Fava bd | 
Garlic 


F 


Tomatoes Yellow 
Apricots Papayda | 
Warermek Red onion Butterr | 
Fava bean: Spinach 
Watermel Cucumber 
Apricots 


Avocad | 
Butter 
Strawberri Celery 


Grapes 
Garlic 


Parsnips Okra 








友 | Potatoes 
Cc D E F 
Ginger Yellow per Green bea Fava be 


Corn Garlic Tomatoes Yellow 


Grapefruit Grapes ”Apricots Papaya 
Ginger Watermel Red onion Butterr 
Eggplant Cherries 


Cucumber Apples 


Strawberri Apricol 


Grapes Avocac 





12-12 之 前 (左边 


程序 可 以 这 样 写 : 读 入 日 
循环 拷贝 前 面 N 行 。 对 于 剩 下 的 行 ， 





) 和 之 后 (右边 


C 














行 号 加 上 M,， 


子 表格 的 内 容 , 然后 在 写 入 新 


) 在 第 三 行 插入 两 个 空 行 





























的 电子 表格 时 ， 利 
的 电子 表格 。 





j for 





C 





写 入 输 昌 d 
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12.13.3 ”电子 表格 单元 格 翻转 程序 

编写 一 个 程序 ， 翻 转 电 子 表 格 中 行 和 列 的 单元 格 。 例 如 ， 第 5 行 第 3 列 的 值 将 
出 现在 第 3 行 第 5 列 〈 反 之 亦 然 )。 这 应 该 针对 电子 表格 中 所 有 单元 格 进行 。 例 如 ， 
之 前 和 之 后 的 电子 表格 应 该 看 起 来 如 图 12-13 所 示 。 






















































































Al v 大 | ITEM 
A B Cc D E E G6 H 1 J 
1 [rem Jsow 
2 Eggplant 334 
| 3 Cucumber 252 
4 GI cab 238 
5 Eggplant 516 
Ni 6 Ger 98 
7 Parsnips 16 
8 Asparag 335 
9 Avocad 84 
10 
Al ~ 去 ITEM 
A B C D E F 6 H 1 J 
1 [ITEM egenlant Cucumber Green cab|l Eggplant Garlic Parsnips Asparagus Avocados 


12 SOLD 334 252 238 516 98 16 335 84 








12-13 ”翻转 之 前 (上面) 和 之 后 (下面 ) 的 电子 表格 
程序 可 以 这 样 写 : 利用 风 套 的 for 循环 ， 将 电子 表格 中 的 数据 读 入 一 个 列表 的 
列表 。 这 个 数据 结构 用 sheetData[x][y] 表 示 列 x 和 行 y 处 的 单元 格 。 然 后 ， 在 写 入 
新 电子 表格 时 ， 将 sheetData[y][x] 写 入 列 x 和 行 y 处 的 单元 格 。 






























































12.13.4 ”文本 文件 到 电子 表格 

编写 一 个 程序 ， 读 入 几 个 文本 文件 的 内 容 ( 可 以 自己 创造 这 些 文 本 文件 )， 并 

将 这 些 内 容 插入 一 个 电子 表格 ， 每 行 号 入 一 行文 本 。 第 一 个 文本 文件 中 的 行将 写 入 

列 A 中 的 单元 格 ， 第 二 个 文本 文件 中 的 行将 写 入 列 B 中 的 单元 格 ， 以 此 类 推 。 
利用 File 对 象 的 readlines0 方 法 ,返回 一 个 字符 串 的 列表 ,每 个 字符 串 就 是 文件 中 

的 一 行 。 对 于 第 一 个 文件 ， 将 第 一 行 输出 到 列 1 行 1。 第 二 行 应 该 写 入 列 1 行 2， 以 此 

类 推 。 下 一 个 用 readlines0 读 入 的 文件 将 写 入 列 2， 再 下 一 个 写 入 列 3， 以 此 类 推 。 
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12.13.5 ”电子 表格 到 文本 文件 
编写 一 个 程序 ， 执 行 前 一 个 程序 相反 的 任务 。 该 程序 应 该 打开 一 个 电子 表格 ， 将 列 
A 中 的 单元 格 写 入 一 个 文本 文件 ， 将 列 B 中 的 单元 格 写 入 另 一 个 文本 文件 ， 以 此 类 推 。 
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| 3 


处 理 PDF 和 Word 文档 


























PDF 和 Word 文档 是 二 进 制 文件 ， 所 以 它们 比 纯 文本 文件 要 
复杂 得 多 。 除 了 文本 之 外 ， 它 们 还 保存 了 许多 字体 、 颜 色 和 布局 
信息 。 如 果 希 望 程序 能 读 取 或 写 入 PDF 和 Word 文档 ， 需 要 做 的 
就 不 只 是 将 它们 的 文件 名 传递 给 open()。 

好 在 ， 有 一 些 Python 模块 。 使 得 处 理 PDF 和 Word 文档 变 
得 容易 。 本 章 将 介绍 两 个 这 样 的 模块 。 



























































13.1 PDF 文档 


PDF 表示 Portable Document Format, 使 用 .pdf 文件 扩展 名 。 虽然 PDF 支持 许多 

功能 , 但 本 章 将 专注 于 最 常 做 的 两 件 事 : 从 PDF 读 取 文 本 内 容 和 从 已 有 的 文档 生成 
新 的 PDF。 
用 于 处 理 PDF 的 模块 是 PyPDF2。 要 安装 它 ,就 从 命令 行 运行 pip install PyPDF2。 
这 个 模块 名 称 是 区 分 大 小 写 的 ， 所 以 要 确保 y 是 小 写 ， 其 他 字母 都 是 大 写 〈 请 查看 
附录 A， 了 解 安装 第 三 方 模块 的 所 有 细节 )。 如 果 该 模块 安装 正确 ， 在 交互 式 环境 
中 运行 import PYPDF2， 应 该 不 会 显示 任何 错误 。 

































































































































































13.1.1 从 PDF 提取 文本 
PyPDF2 没有 办 法 从 PDF 文档 中 提取 
并 将 文本 返回 为 Python 字符 串 。 为 了 开始 学 习 PyPDF2 的 工作 原理 ， 我 们 将 它 


本 ， 





























于 一 个 示例 PDF， 如 


长 
o 
3 
而 
侠 
Sj 
反 
o 
© 
[3 
名 
二 
5 
[nH 
时 
乒 
并 
5 


13-1 

















图 13-1 所 示 。 





、 ”BOARD 
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图 像 、 图 表 或 其 他 媒体 ， 但 它 可 以 提取 文 


























ELEMENTARY 


an 
yy SECONDARY 


EDUCATION 


OFFICIAL BOARD MINUTES 


Meeting of March 7, 





2014 


PDF 页 面 ， 我 们 将 从 中 提取 文本 


有 问题 的 PDF 格式 

虽然 PDF 文件 对 文本 布局 非常 好 ， 让 人 们 很 容易 打印 并 阅读 ， 但 软件 要 将 
它们 解析 为 纯 文 本 却 并 不 容易 。 因 此 ，PyPDF2 从 PDF 提取 文本 时 可 能 会 出 错 ， 
甚至 根本 不 能 打开 某 些 PDF。 遗憾 的 是 ， 你 对 此 没有 什么 办 法 ，PyPDF2 可 能 就 
是 不 能 处 理 某 些 PDF 文件 . 话 虽 这 样 说 , 我 至 今 没有 发 现 不 能 用 PyPDF2 打开 的 





PDF 文件 . 
从 http://nostarch.com/automatestuff/ 下 载 这 个 PDF 文件 ， 并 在 交互 式 环境 中 输入 
以 下 代码 : 


© >>> 


"OO0FFFFIICCIIAALL BBOOAARRDD 


import PyPDF2 


pdfFile0bj = open('meetingminutes.pdf', 
pdfReader = PyPDF2.PdfFileReader (pdfFile0bj) 


pdfReader .numPages 


page0bj = pdfReader .getPage(0) 
page0bj .extractText() 
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rb') 


MMIINNUUTTEESS Meeting of March 7, 2015 


\n The Board of Elementary and Secondary Education shall provide leadership 
and create policies for education that expand opportunities for children, 
empower families and communities, and advance Louisiana in an increasingly 
competitive global market. BOARD of ELEMENTARY and SECONDARY EDUCATION ' 


首先 ， 导 入 PyPDF2 模块 。 然 后 以 读 二 进 制 模式 打开 meetingminutes.pdf， 并 将 
它 保存 在 pdfFileObj 中 。 为 了 取得 表示 这 个 PDF 的 PdfFileReader 对 象 , 调用 PyPDF2. 
PdfFileReaderO 并 向 它 传 入 pdfFileObj。 将 这 个 PdfFileReader 对 象 保 存在 pdfReader 中 。 

该 文档 的 总 页 数 保存 在 PdfFileReader 对 象 的 numPages 属性 中 @。 示例 PDF 文 
档 有 19 页 ， 但 我 们 只 提取 第 一 页 的 文本 。 

要 从 一 页 中 提取 文本 ， 需 要 通过 PdfFileReader 对 象 取 得 一 个 Page 对 象 ， 它 表 
示 PDF 中 的 一 页 。 可 以 调用 PdfFileReader 对 象 的 getPage() 方 法 @， 向 它 传 入 感 兴 
趣 的 页 码 《〈 在 我 们 的 例子 中 是 0)， 从 而 取得 Page 对 象 。 
PyPDF2 在 取得 页 面 时 使 用 从 0 开始 的 下 标 : 第 一 页 是 0 页 ， 第 二 页 是 1 页 ， 以 
此 类 推 。 事 情 总 是 这 样 ， 即 使 文档 中 页 面 的 页 码 不 同 。 例 如 ， 假 定 你 的 PDF 是 从 一 
个 较 长 的 报告 中 抽取 出 3 页 ， 它 的 页 码 分 别 是 42、43 和 44， 要 取得 这 个 文档 的 第 一 
页 ， 需 要 调用 pdfReadergetPage(0)， 而 不 是 getPage(42) 或 getPage(])。 

在 取得 Page 对 象 后 ， 调 用 它 的 extractText0 方 法 ， 返 回 该 页 文本 的 字符 串 @。 文 
本 提取 并 不 完美 : 该 PDF 中 的 文本 Charles E.“Chas”Roemer President， 在 函数 返 
的 字符 串 中 消失 了 , 而 且 空 格 有 时 候 也 会 没有 。 但 是 , 这 种 近似 的 PDF 文本 内 容 ， 
可 能 对 你 的 程序 来 说 已 经 足够 了 。 
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13.1.2 解密 PDF 
某 些 PDF 文档 有 加 密 功 能 ， 以 防止 别人 阅读 ， 只 有 在 打开 文档 时 提供 口令 才能 阅 
读 。 在 交互 式 环境 中 输入 以 下 代码 ， 处 理 下 载 的 PDF， 它 已 经 用 口令 rosebud 加 密 : 


>>> import PyPDF2 
>>> pdfReader = PyPDF2.PdfFileReader(open('encrypted.pdf', 'rb')) 
© >>> pdfReader.isEncrypted 
True 
>>> pdfReader .getPage(0) 
@ Traceback (most recent call last): 
File "<pyshell#173>", line 1, in <module> 
pdfReader .getPage() 
--SNip-- 
File "C:\Python34\lib\site-packages\PyPDF2\pdf .py", line 1173, in getObject 
raise utils.PdfReadError("file has not been decrypted") 
PyPDF2.utils.PdfReadError: file has not been decrypted 
© >>> pdfReader.decrypt('rosebud') 
1 
>>> page0bj = pdfReader .getPage(0) 


所 有 PdfFileReader 对 象 都 有 一 个 isEncrypted 属性 ， 如 果 PDF 是 加 密 的 ， 它 就 
是 True， 如 果 不 是 ， 它 就 是 False@ 。 在 文件 用 正确 的 口令 解密 之 前 ， 演 试 调用 函数 
来 读 取 文 件 ， 将 会 导致 错误 @。 
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要 读 取 加 密 的 PDF， 就 调 

















j decrypt0 函 数 ， 传 入 口令 字符 串 @。 在 用 正确 的 口 














令 调 用 decrypt0 后 , 你 会 看 到 调用 getPage0 不 再 导致 错误 。 如 果 提 供 了 错误 的 口令 ， 
decryptO 函 数 将 返回 0， 并 且 getPage0 会 继续 失败 。 请 注意 ，decrypt(0 方 法 只 解密 了 
PdfFileReader 对 象 ， 而 不 是 实际 的 PDF 文件 。 在 程序 中 止 后 , 硬盘 上 的 文件 仍然 是 




















加 密 的 。 程 序 下 次 运行 时 ， 仍 然 需 要 





13.1.3 ”创建 PDF 






















































































于 次 调用 decrypt()。 





在 PyPDF2 中 ， 与 PdfFileReader 对 象 相 对 的 是 PdfFileWriter 对 象 ， 它 可 以 创建 
一 个 新 的 PDF 文件 。 但 PyPDF2 不 能 将 任意 文本 写 入 PDF， 就 像 Python 可 以 写 入 














页 面 、 重 县 页 面 和 加 密 文件 。 




















纯 文本 文件 那样 。 PyPDF2 写 入 PDF 的 能 力 ， 仅 限于 从 其 他 PDF 中 拷贝 页 面 、 旋 转 














模块 不 允许 直接 编辑 PDF。 必须 创建 一 个 新 的 PDF， 然 后 从 已 有 的 文档 拷贝 内 
容 。 本 节 的 例子 将 遵循 这 种 一 般 方式 : 
.打开 一 个 或 多 个 已 有 的 PDF ( 源 PDF)， 得 到 PdfFileReader 对 象 。 








1 
2. 创建 一 个 新 的 PdfFileWriter 对 象 。 
3 

















. 将 页 面 从 PdfFileReader 对 象 拷贝 到 PdfFileWriter 对 象 中 。 
4. 最 后 ， 利 用 PdfFileWriter 对 象 写 入 输出 的 PDF。 








创建 一 个 PdfFileWriter 对 象 ， 只 是 如 


















































E Python 中 创建 了 一 个 代表 PDF 文档 的 值 ， 这 并 
没有 创建 实际 的 PDF 文件 ， 要 实际 生成 文件 ， 必 须 调用 PdfFileWriter 对 象 的 write0 方 法 。 











write(0) 方 法 接受 一 个 普通 的 File 对 象 ， 它 以 写 二 进 制 的 模式 打开 。 你 可 以 用 两 
个 参数 调用 Python 的 open0 函 数 ， 得 到 这 样 的 File 对 象 : 一 个 是 要 打开 的 PDF 文 























件 名 字符 串 ， 一 个 是 'wb'， 表 明文 伯 
如 果 这 听 起 来 有 些 令 人 困惑 ， 





种 工作 方式 。 





13.1.4 ”拷贝 页 面 























不 月 























F 应 该 以 写 二 进 制 的 模式 打开 。 











担心 ， 在 接 下 来 的 代码 示例 中 ， 你 会 看 到 这 














可 以 利用 PyPDF2， 从 一 个 PDF 文档 找 贝 页 面 到 男 一 个 PDF 文档 。 这 让 你 能 够 

















组 合 多 个 PDF 文件 ， 去 除 不 想 要 的 页 面 ， 或 调整 页 面 的 次 序 。 
从 http://nostarch.com/automatestuff/ 下 载 meetingminutes.pdf 和 meetingminutes2.pdf， 放 























>>> import PyPDF2 


>>> pdf1File = open('meetingminutes.pdf', 
>>> pdf2File = open('meetingminutes2.pdf', 'rb') 


@Qe@e 











在 当前 工作 目录 中 。 在 交互 式 环境 中 输入 以 下 代码 : 


'rb') 


>>> pdf1Reader = PyPDF2.PdfFileReader (pdf1File) 
>>> pdf2Reader = PyPDF2.PdfFileReader (pdf2File) 
>>> pdfWriter = PyPDF2.PdfFileWriter() 


>>> for pageNum in range(pdfiReader.numPages): 
[49 page0bj = pdfiReader .getPage(pageNum) 
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© pdfWriter.addPage (page0bj) 


>>> for pageNum in range(pdf2Reader .numPages) : 
[49 page0bj = pdf2Reader .getPage(pageNum) 
© pdfWriter.addPage (page0bj) 


@ >>> pdfOutputFile = open('combinedminutes.pdf', 'wb') 
>>> pdfWriter.write(pdfOutputFile) 
>>> pdfOutputFile.close() 
>>> pdf1File.close() 
>>> pdf2File.close() 


以 读 二 进 制 的 模式 打开 两 个 PDF 文件 ， 将 得 到 的 两 个 File 对 象 保 存在 pdflFile 和 
pdf2File 中 。 调 用 PyPDF2.PdfFileReader0, 传 入 pdflFile, 得 到 一 个 表示 meetingminutes.pdf 
的 PdfFileReader 对 象 @。 再 次 调用 PyPDF2.PdfFileReader0， 传 入 pdf2File， 得 到 一 个 
表示 meetingminutes2.pdf 的 PdfFileReader 对 象 @。 然 后 创建 一 个 新 的 PdfFileWriter 
对 象 ， 它 表示 一 个 空白 的 PDF 文档 目 。 

接 下 来 ， 从 两 个 源 PDF 拷贝 所 有 的 页 面 ,将 它们 添加 到 PdfFileWriter 对 象 。 在 
PdfFileReader 对 象 上 调用 getPage()， 取 得 Page 对 象 @。 然 后 将 这 个 Page 对 象 传递 
给 PdfFileWriter 的 addPage( 方 法 @。 这 些 步骤 先是 针对 pdflReader 进行 ,然后 再 针对 
pdf2Reader 进行 。 在 拷贝 页 面 完 成 后 ， 向 PdfFileWriter 的 write0) 方 法 传 入 一 个 File 
对 象 ， 写 入 一 个 新 的 PDF 文档 ， 名 为 combinedminutes.pdf@ 。 



































































































































注意 PyPDF2 不 能 在 PdfFileWriter 对 象 中 间 揪 入 页 面 ，addPage() 方 法 只 能 够 在 末尾 添 
加 页 面 。 








现在 你 创建 了 一 个 新 的 PDF 文件 ， 将 来 自 meetingminutes.pdf 和 meetingmin 
utes2.pdf 的 页 面 组 合 在 一 个 文档 中 。 要 记 住 ， 传 递 给 PyPDF2.PdfFileReader0) 的 File 对 
象 ， 需 要 以 读 二 进 制 的 方式 打开 。 即 使 用 rb' 作 为 open0 的 第 二 个 参数 。 类 似 的 ， 传 
入 PyPDF2.PdfFileWriter() 的 File 对 象 需要 以 写 二 进 制 的 模式 打开 ， 即 使 用 "wb'。 






































下 








13.1.5 ”旋转 页 面 
利用 rotateClockwise() 和 rotateCounterClockwise() 方 法 , PDF 文档 的 页 面 也 可 以 
旋转 90 度 的 整数 倍 。 向 这 些 方法 传 入 整数 90、180 或 270 就 可 以 了 。 在 交互 式 环 
境 中 输入 以 下 代码 ， 同 时 将 meetingminutes.pdf 放 在 当前 工作 目录 中 : 


>>> import PyPDF2 
>>> minutesFile = open('meetingminutes.pdf', 'rb') 
>>> pdfReader = PyPDF2.PdfFileReader (minutesFile) 
© >>> page = pdfReader .getPage(0) 
@ >>> page.rotateClockwise(90) 
{'/Contents': [IndirectObject(961, 0), IndirectObject(962, 0),， 
--SnIp-- 
} 
>>> pdfWriter = PyPDF2.PdfFileWriter() 
>>> pdfWriter.addPage (page) 
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© >>> resultPdfFile = open('rotatedPage.pdf', 'wb') 
>>> pdfWriter.write(resultPdfFile) 
>>> resultPdfFile.close() 
>>> minutesFile.close() 


这 里 ， 我 们 使 用 getPage(0) 来 选择 PDF 的 第 一 页 @， 然 后 对 该 页 调用 
rotateClockwise(90)@ 。 我 们 将 旋转 过 的 页 面 写 入 一 个 新 的 PDF 文档 ， 并 保存 为 
rotatedPage.pdf®@ 。 

得 到 的 PDF 文件 有 一 个 页 面 , 顺 时 针 旋转 了 90 度 ， 如 图 13-2 所 示 。rotateClockwise0) 
和 rotateCounterClockwise() 的 返回 值 包含 许多 信息 ， 你 可 以 忽略 。 
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13-2 rotatedPage.pdf 文件 ， 页 面 顺 时 针 旋 转 了 90 度 


13.1.6 ”又 加 页 面 
PyPDF2 也 可 以 将 一 页 的 内 容 车 加 到 另 一 页 上 ， 这 可 以 用 来 在 页 面 上 添加 公司 
标志 、 时 间 惟 或 水 印 。 利 用 Python， 很 容易 为 多 个 文件 添加 水 印 ， 并 且 只 针对 程序 
指定 的 页 面 添加 。 
从 http:/mostarch.com/automatestuff/ 下 载 watermark.pdf， 将 它 和 meetingminutes.pdf 一 
起 放 在 当前 工作 目录 中 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import PyPDF2 
>>> minutesFile = open('meetingminutes.pdf', 'rb') 
© >>> pdfReader = PyPDF2.PdfFileReader (minutesFile) 
@ >>> minutesFirstPage = pdfReader .getPage(0) 
© >>> pdfWatermarkReader = PyPDF2.PdfFileReader(open('watermark.pdf', 'rb')) 
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@ >>> minutesFirstPage.mergePage(pdfWatermarkReader .getPage(0)) 
© >>> pdfWriter = PyPDF2.PdfFileWriter() 
@ >>> pdfWriter.addPage (minutesFirstPage) 


@ >>> for pageNum in range(1，pdfReader .numPages ) : 
page0bj = pdfReader .getPage(pageNum) 
pdfWriter.addPage(page0bj ) 

>>> resultPdfFile = open('watermarkedCover.pdf', 'wb') 
>>> pdfWriter.write(resultPdfFile) 

>>> minutesFile.close() 

>>> resultPdfFile.close() 


这 里 我 们 生成 了 meetingminutes.pdf 的 PdfFileReader 对 象 @。 调 用 getPage(0)， 
取得 第 一 页 的 Page 对 象 ， 并 将 它 保 存在 minutesFirstPage 中 四 。 然 后 生成 了 watermark.pdf 
的 PdfFileReader 对 象 人 @@， 并 在 minutesFirstPage 上 调用 mergePage0@。 传 递 给 mergePage() 
的 参数 ， 是 watermark.pdf 第 一 页 的 Page 对 象 。 

既然 我 们 已 经 在 minutesFirstPage 上 调用 了 mergePage()，minutesFirstPage 就 代 
表 加 了 水 印 的 第 一 页 ,我 们 创建 一 个 PdfFileWiriter 对 象 @, 并 加 入 加 了 水 印 的 第 一 页 @。 
然后 循环 遍历 meetingminutes.pdf 的 剩余 页 面 ， 将 它们 添加 到 PdfFileWriter 对 象 中 @。 
最 后 , 我 们 打开 一 个 新 的 PDF 文件 watermarkedCoverpdf， 并 将 PdfFileWriter 的 内 容 写 
入 该 文件 。 

图 13-3 展示 了 结果 。 新 的 PDF 文件 watermarkedCover.pdf， 包 含 meetingminutes.pdf 
的 全 部 内 容 ， 并 在 第 一 页 加 了 水 印 。 
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13.1.7 加密 PDF 
PdfFileWriter 对 象 也 可 以 为 PDF 文档 进行 加 密 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import PyPDF2 

>>> pdfFile = open('meetingminutes.pdf', 'rb') 
>>> pdfReader = PyPDF2.PdfFileReader(pdfFile) 
>>> pdfWriter = PyPDF2.PdfFileWriter() 
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13.2 


>>> for pageNum in range(pdfReader .numPages) : 
pdfWriter.addPage(pdfReader .getPage (pageNum)) 


>>> pdfWriter.encrypt('swordfish') 
>>> resultPdf = open('encryptedminutes.pdf', 'wb') 
>>> pdfWriter.write(resultPdf) 
>>> resultPdf.close() 


write() 方 法 保存 文件 之 前 ， 调 用 encrypt0 方 法 ， 传 入 口令 字符 串 @。PDF 可 





在 调用 























以 有 一 个 用 


























提取 文本 和 














其 他 功能 的 许可 )。] 








可 











户口 令 〈 人 允许 查看 这 个 PDF) 和 一 个 拥有 者 























户口 令 和 所 








有 者 




















个 参数 。 如 


令 swordfish 


果 只 传 入 
在 这 个 例子 



































加 密 了 


PdfFileWriter， 





个 字符 串 给 


encryptO0， 它 ; 
， 我 们 将 meetingminutes.pdf 的 页 面 拷贝 至 








令 分 别 是 encrypt( 











打 


PdfFileWriter 的 内 容 写 入 新 PDF。 任 何 


口 





令 。 在 确 








假定 你 有 一 个 很 无 聊 的 任务 ， 
面 。 即 使 有 许多 免费 的 程序 可 以 合并 PDF， 
让 我 们 来 写 一 个 Python 程序 ， 定 制 需 要 合 六 
总 的 来 说 ， 该 程序 需要 完成 : 
。 找到 当前 工作 目录 中 所 有 PDF 文件 。 











保 文 件 的 拷贝 被 正确 力 











各 作为 两 个 


口令 。 








口令 (允许 设置 打印 、 注 释 、 


| PdfFileWriter 对 象 。 用 











) 的 第 一 个 和 第 二 





口 





于 了 一 个 名 为 encryptedminutes.pdf 的 新 PDF， 将 


人 要 查看 























上 密 后 ， 你 可 能 会 


项 目 : 从 多 个 PDF 中 合并 选择 的 页 面 





encryptedminutes.pdf， 都 必须 输入 这 个 
删除 原来 的 未 加 密 的 文件 。 





需要 将 几 十 个 PDF 文件 合并 成 一 个 PDF 文件 。 
一 个 文件 都 有 一 个 封面 作为 第 一 页 ， 但 你 不 希望 合并 后 的 文件 中 重复 出 现 这 些 封 















































很 多 也 只 是 简单 
F 到 PDF 中 的 页 面 。 























按 文件 名 排序 ， 这 样 就 能 有 序 地 添加 这 些 PDF。 





。 除了 第 一 页 之 外 ， 将 每 个 PDF 的 所 有 页 面 写 入 输出 的 文件 。 
从 实现 的 角度 来 看 ， 代 码 需要 完成 下 列 任务 : 





e。 调用 os.listdir()， 找 到 当前 工 
。 调用 Python 的 sort0) 列 表 方法 ， 对 文 伯 
为 输出 的 PDF 文件 创建 PdfFileWriter 对 象 。 
F 文件 ， 为 它 创 建 PdfFileReader 对 象 。 














。 循环 过 历 每 个 PD 





作 



































。 针对 每 个 PDF 文件， 循环 遍历 每 一 页 ， 第 一 页 除外 。 








针对 这 个 项 目 


将 页 面 添 加 
将 输出 的 PDF 写 入 一 个 文件 ， 名 为 allminutes.pdf。 
， 打 开 一 个 新 的 文件 





到 输出 的 PDF。 




















第 1 步 : 找到 所 有 PDF 文件 


首先 ， 
































程序 需要 取得 当前 工作 目录 
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所 有 人 带 














的 将 文件 合并 在 一 起 。 





目录 中 的 所 有 文件 ， 去 除 掉 非 PDF 文件 。 
F 名 按 字母 排序 。 


编辑 器 窗口 ， 将 它 保存 为 combinePdfs.py。 











.pdf 扩展 名 的 文件 


列表 ， 并 对 它们 


排序 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# CombinePdfs.py - Combines all the PDFs in the current working directory into 


# into a single PDF. 

















© import PyPDF2, os 


# Get all the PDF filenames. 
pdfFiles = [] 
for filename in os.listdir('.'): 
if filename.endswith('.pdf'): 
@ pdfFiles.append(filename ) 
目 pdfFiles.sort(key/str.1lower) 


@ pdfWriter = PyPDF2.PdfFileWriter() 
# TODO: Loop through all the PDF files. 
# TODO: Loop through all the pages (except the first) and add them. 
# TODO: Save the resulting PDF to a file. 

在 #! 行 和 介绍 程序 做 什么 的 描述 性 注释 之 后 ， 代 码 导 入 了 os 和 PyPDF2 模块 @。 
os.listdir('.) 调 用 将 返回 当前 工作 目录 中 所 有 文件 的 列表 。 代 码 循环 遍历 这 个 列表 ， 
将 带 有 .pdf 扩展 名 的 文件 添加 到 pdfFiles 中 四 。 然 后 ， 列 表 按 照 字典 顺序 排序 ， 调 

] sortO 时 带 有 key/strlower 关键 字 参 数目 。 
代码 创建 了 一 个 PdfFileWriter 对 象 ， 保 存 合并 后 的 PDF 页 面 @。 最 后 ,一些 注 
释 语句 简要 描述 了 剩 下 的 程序 。 



















































































































































































第 2 步 : 打开 每 个 PDF 文件 
现在 ， 程 序 必须 读 取 pdfFiles 中 的 每 个 PDF 文件 。 在 程序 中 加 入 以 下 代码 : 


#! python3 
# CombinePdfs.py - Combines all the PDFs in the current working directory into 


# a single PDF. 

















import PyPDF2, os 


# Get all the PDF filenames. 
pdfFiles = [] 
--SNip-- 
# Loop through all the PDF files. 
for filename in pdfFiles: 
pdfFile0bj = open(filename, 'rb') 
pdfReader = PyPDF2.PdfFileReader (pdfFile0bj) 
# TODO: Loop through all the pages (except the first) and add them. 


# TODO: Save the resulting PDF to a file. 

针对 每 个 PDF 文件 ， 循 环 内 的 代码 调用 open0， 以 wb' 作 为 第 二 个 参数 ， 用 读 二 进 
制 的 模式 打开 文件 。openO 调 用 返回 一 个 File 对 象 ， 它 被 传递 给 PyPDF2.PdfFileReader()， 
创建 针对 那个 PDF 文件 的 PdfFileReader 对 象 。 
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第 3 步 : 添加 每 一 页 











针对 每 个 PDF 文件 ， 需 要 循环 遍历 每 一 页 ， 第 一 页 除外 。 在 程序 中 添加 以 
下 代码 : 
#! python3 


# CombinePdfs.py - Combines all the PDFs in the current working directory into 
# a single PDF. 


import PyPDF2, os 
--SNip-- 


# Loop through all the PDF files. 
for filename in pdfFiles: 


--SNip-- 
# Loop through all the pages (except the first) and add them. 
0 for pageNum in range(1, pdfReader.numPages): 


page0bj = pdfReader .getPage (pageNum) 
pdfWriter.addPage(page0bj ) 


# TODO: Save the resulting PDF to a file. 





for 循环 内 的 代码 将 每 个 Page 对 象 拷贝 到 PdfFileWriter 对 象 。 要 记 住 ， 你 需要 
跳 过 第 一 页 。 因 为 PyPDF2 认为 0 是 第 一 页 ， 所 以 循环 应 该 从 1 开始 @， 然 后 向 上 
增长 到 pdfReadernumPages 中 的 整数 ， 但 不 包括 它 。 
































第 4 步 : 保存 结果 
在 这 些 骨 套 的 for 循环 完成 后 ，pdfWiriter 变量 将 包含 一 个 PdfFileWriter 对 象 ， 
合并 了 所 有 PDF 的 页 面 。 最 后 一 步 是 将 这 些 内 容 写 入 硬盘 上 的 一 个 文件 。 在 程序 中 
添加 以 下 代码 : 


#! python3 


# CombinePdfs.py - Combines all the PDFs in the current working directory into 
# a single PDF. 


import PyPDF2, os 





























--SnIip-- 


# Loop through all the PDF files. 

for filename in pdfFiles: 

--SNip-- 
# Loop through all the pages (except the first) and add them. 
for pageNum in range(1, pdfReader.numPages): 
--SNip-- 


# Save the resulting PDF to a file. 
pdfOutput = open('allminutes.pdf', 'wb') 
pdfWriter .write(pdfOutput) 
pdfOutput.close() 























向 open0 传 入 'wb'， 以 写 二 进 制 的 模式 打开 输出 PDF 文件 allminutes.pdf。 然 后 ,将 


A 
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得 到 的 File 对 象 传 给 write0 方 法 , 创建 实际 的 PDF 文件 。 调用 close0 方 法 ,结束 程序 。 








第 5 步 : 类 似 程序 的 想法 











能 够 利用 其 他 PDF 文件 的 页 面 创建 PDF 文件 ， 这 让 你 的 程序 能 完成 以 下 任务 : 
。 从 PDF 文件 中 截取 特定 的 页 面 。 
。 重新 调整 PDF 文件 中 页 面 的 次 序 。 
。 创建 一 个 PDF 文件 , 只 包含 那些 具有 特定 文本 的 页 面 。 文本 由 extractText0 来 确定 。 
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et 






































13.3 ”Word 文档 





利用 python-docx 模块 ，Python 可 以 创建 和 修改 Word 文档 ， 它 带 有 .docx 文件 
扩展 名 。 运 行 pip install python-docx， 可 以 安装 该 模块 (附录 A 介绍 了 安装 第 三 方 
模块 的 细节 )。 


OSI 参考 模型 最 初 是 在 1983 年 由 国际 标准 化 组 织 出 版 ， 标 准 号 为 ISO 7498。 
在 第 一 次 用 pip 安装 python-docx 时 ， 注 意 要 安装 python-docx， 而 不 是 docx。 
名 称 docx 是 指 另 一 个 模块 ， 本 书 没有 介绍 。 但 是 ， 在 导入 python-docx 模块 时 ， 需 


要 执行 import docx， 而 不 是 import python-docx。 







































































如 果 你 没有 Word 软件 ，LibreOffice Writer 和 OpenOffice Writer 都 是 免费 的 蔡 
代 软 件 ， 它 们 可 以 在 Windows、OS X 和 Linux 上 打开 .docx 文件 。 可 以 分 别 从 
https://www.libreoffice.org 和 http://openoffice.org 下 载 它们 。python-docx 的 完整 文档 
在 https:Wpython-docx.readthedocs.org/。 尽 管 有 针对 OS X 平 台 的 Word 版 本 ,但 本 
章 将 使 用 Windows 平台 的 Word。 

和 纯 文 本 相 比 ，.docx 文件 有 很 多 结构 。 这 些 结构 在 python-docx 中 用 3 种 不 同 
的 类 型 来 表示 。 在 最 高 一 层 ，Document 对 象 表 示 整 个 文档 。Document 对 象 包含 
一 个 Paragraph 对 象 的 列表 ， 表 示 文 档 中 的 段落 (用 户 在 Word 文档 中 输入 时 ， 如 
果 按 下 回 车 ， 新 的 段落 就 开始 了 )。 每 个 Paragraph 对 象 都 包含 一 个 Run 对 象 的 列 
表 。 图 13-4 中 的 单 句 段落 有 4 个 Run 对 象 。 


A plain paragraph with some bold and some italic 
A ii | 





































































































Run Run Run Run 
13-4 一 个 Paragraph 对 象 中 识别 的 Run 对 象 
Word 文档 中 的 文本 不 仅仅 是 字符 串 。 它 包含 与 之 相关 的 字体 、 大 小 、 颜 色 和 
其 他 样式 信息 。 在 Word 中 ， 样 式 是 这 些 属性 的 集合 。 一 个 Run 对 象 是 相同 样式 文 
本 的 延续 。 当 文本 样式 发 生 改变 时 ， 就 需要 一 个 新 的 Run 对 象 。 
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13.3.1 读 取 Word 文档 





让 我 们 尝试 使 用 python-docx 模块 。 从 http://nostarch.com/automatestuff/ 下 载 
demo.docx， 并 将 它 保 存在 当前 工作 目录 中 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 
































>>> import docx 
>>> doc = docx.Document('demo.docx') 
>>> len(doc.paragraphs) 
7 
© >>> doc.paragraphs[0].text 
"Document Title' 
@ >>> doc.paragraphs[1].text 
'A plain paragraph with some bold and some italic 
© >>> len(doc.paragraphs[1].runs) 
4 
© >>> doc.paragraphs[1].runs[0].text 
'A plain paragraph with Some ‘' 
@ >>> doc.paragraphs[1].runs[1].text 


Q@ e 


"bold ' 

@ >>> doc.paragraphs[1].runs[2].text 
' and Some ， 

© >>> doc.paragraphs[1].runs[3].text 
'italic' 











在 @ 行 ， 我 们 在 Python 打开 了 一 个 .docx 文件 ， 
文件 名 demo.docx。 这 将 返回 一 个 Document 对 象 , 它 


















































调用 docx.Document()， 传 入 











有 paragraphs 属性 , 是 Paragraph 








对 象 的 列表 。 如 果 我 们 对 doc.paragraphs 调用 len0， 将 返回 7。 这 告诉 我 们 ， 该 文 


档 有 7 个 Paragraph 对 象 @@。 每 个 Paragraph 对 象 都 有 一 





























的 字符 串 (没有 样式 信息 )。 这 里 ， 第 一 个 text 属性 包含 

















'A plain paragraph with some bold and some italic'@ 。 





每 个 Paragraph 对 象 也 有 一 个 runs 属性 ， 它 是 Run 对 象 的 列表 。Run 对 象 也 有 











个 text 属性 ， 包 含 该 段 中 文本 
DocumentTitle' 上 日 ， 第 二 个 包含 























一 个 text 属性 ， 包 含 那 个 延续 中 的 文本 。 我 们 看 看 第 二 个 Paragraph 对 象 中 的 text 
属性 ，'A plain paragraph with some bold and some italic'。 对 这 个 Paragraph 对 象 调用 len0， 


























结果 告诉 我 们 有 4 个 Run 对 象 @。 第 一 个 对 象 包含 'A plain paragraph with some '@。 然 











后 ， 文 本 变 为 粗 体 样 式 ， 所 以 ”bold 开始 了 一 个 新 的 Run 对 象 @。 在 这 之 后 ， 文 本 





又 回 到 了 非 粗 体 的 样式 ， 这 导致 了 第 三 个 Run 对 象 ，' 
对 象 包含 'iitalic'， 是 斜体 样式 @。 











and some '@ 。 最 后 ， 第 四 个 




















值 一 样 使 用 它 。 





13.3.2 ”从 .docx 文件 中 取得 完整 的 文本 

















有 了 python-docx，Python 程序 就 能 从 .docx 文件 中 读 取 文本 ， 像 其 他 的 字符 串 

















如 果 你 只 关心 Word 文档 中 的 文本 ， 不 关心 样式 人 


























言 息 ， 就 可 以 利用 getTextO 函 





数 。 它 接受 一 个 .docx 文件 名 ， 返 回 其 中 文本 的 字符 虽 
窗口 ， 输 入 以 下 代码 ， 并 保存 为 readDocx.py: 
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。 打 开 一 个 新 的 文件 编辑 器 





#! python3 
import docx 


def getText (filename): 
doc = docx.Document (filename) 
fullText = [] 
for para in doc.paragraphs: 
fullText.append(para.text) 
return '\n'.join(fullText) 


getTextO 函 数 打开 了 Word 文档 ， 循 环 裔 历 paragraphs 列表 中 的 所 有 Paragraph 
对 象 ， 然 后 将 它们 的 文本 添加 到 fullText 列表 中 。 循 环 结束 后 ，fullText 中 的 字符 串 
连接 在 一 起 ， 中 间 以 换行 符 分 隔 。 

readDocx.py 程序 可 以 像 其 他 模块 一 样 导入 。 现 在 如 果 你 只 需要 Word 文档 中 的 
文本 ， 就 可 以 输入 以 下 代码 : 
>>> import readDocx 
>>> print(readDocx.getText('demo.docx')) 
Document Title 
A plain paragraph with some bold and some italic 
Heading, level 1 
Intense quote 


first item in unordered list 
first item in ordered list 


也 可 以 调整 getText0， 在 返回 字符 串 之 前 进行 修改 。 例 如 ， 要 让 每 一 段 缩 进 ， 
就 将 文件 中 的 append0 调 用 蔡 换 为 : 
fullText.append(' ' + para.text) 

要 在 段落 之 间 增 加 空 行 ， 就 将 join0 调 用 代码 改 成 ; 
return '\n\n'.join(fullText) 


可 以 看 到 ， 只 需要 几 行 代码 ， 就 可 以 写 出 函数 ， 读 取 .docx 文件 
回 它 的 内 容 字符 串 。 
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13.3.3 设置 Paragraph 和 Run 对 象 的 样式 

















在 Windows 平台 的 Word 中 ， 你 可 以 按 下 Ctrl-Alt-Shift-S$， 显 示 样 式 窗口 并 查看 样 
式 ， 如 图 13-5 所 示 。 在 OSX 上 ， 可 以 点 击 ViewStyles 荣 单 项 ， 查 看 样式 窗口 。 
Word 和 其 他 文字 处 理 软件 利用 样式 ， 保 持 类 似 类 型 的 文本 在 视觉 展现 上 一 致 ， 
并 易于 修改 。 例 如 ， 也 许 你 希望 将 内 容 段 落 设置 为 11 点 ，Times New Roman， 左 对 
齐 ， 右边 不 对 齐 的 文本 。 可 以 用 这 些 设置 创建 一 种 样式 , 将 它 赋 给 所 有 的 文本 段落 。 
然后 ， 如 果 稍 后 想 改变 文档 中 所 有 内 容 段 落 的 展现 形式 ， 只 要 改变 这 种 样式 ， 所 有 
段落 都 会 自动 更 新 。 
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Styles 





Clear All 


No Spacing 
Heading 1 
Heading 2 
Heading 3 
Heading 4 
Title 
Subtitle 
Subtle Emp 
Emphasis 

| | Intense Em 
Strong 
Quote 


Normal 


Intense Quote 


| 


I 


hasis 


phasis 


nmeamsa 避 记忆 局 


局 
1 




















Disable Li 


外 区 








Page: 1 of 1 | Words:2 [EY | 国 | 


Show Preview 


nked Styles 





Options... 
4 











13-5 在 Windows 平台 上 按 下 Ctrl-Alt-Shift-S$， 显 示 样 式 窗 口 


对 于 Word 文档 ， 有 3 种 类 型 的 样式 : 段落 样式 可 以 应 用 于 Paragraph 对 象 ， 字 
符 样式 可 以 应 用 于 Run 对 象 ， 链 接 的 样式 可 以 应 用 于 这 两 种 对 象 。 可 以 将 Paragraph 和 














Run 对 象 的 style 属 虱 
式 的 名 称 。 





Normal " 

"BodyText 
"BodyText2” 
"BodyText3” 
“ Caption” 

‘Heading1" 
'Heading2" 
‘Heading3" 
‘Heading4' 


在 设置 style 属性 时 , 不 要 在 样式 名 称 中 使 用 


:设置 为 一 个 字符 





"Heading5" 
‘Heading6" 
"Heading7” 
"Heading8" 
‘Heading9' 
"IntenseQuote' 
"List" 

‘List2" 
'List3"' 








ls， 从 而 设置 样式 。 这 个 字符 囊 应 该 是 一 种 样 
如 果 style 被 设置 为 None， 就 没有 样式 与 Paragraph 或 Run 对 象 关联 。 
默认 Word 样式 的 字符 串 如 下 : 





"ListBullet" 
"ListBullet2" 
"ListBullet3" 
'ListContinue’ 
'ListContinue2" 
"ListContinue3 
"ListNumbeT" 
"ListNumbeTr2” 
"ListNumbeTr3” 























‘ListParagraph' 
‘MacroText" 
'NoSpacing’ 
"0Ouote 
"Subtitle" 
“TOCHeading 
"Titjle" 





空格 。 例如, 样式 名 称 可 能 是 Subtle 





Emphasis， 你 应 该 将 属性 设置 为 字符 串 'SubtleEmphasis'， 而 不 是 'Subtle Emphasis'。 
包含 空格 将 导致 Word 误 读 样式 名 称 ， 并 且 应 用 失败 。 








如 果 对 Run 对 象 应 用 链接 的 档 
Paragraph 对 象 设置 Quote 链接 的 样式 ， 应 该 使 有 


























Run 对 象 ， 应 该 使 用 runObj.style = 'QuoteChar'。 


在 当前 版 本 的 python-docx (0.7.4) 中 ， 只 能 使 月 
文件 中 已 有 的 样式 , 不 能 创建 新 的 样式 , 但 这 一 点 在 将 来 的 模块 版 本 ! 
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f 式 ， 需 要 在 样式 名 称 末尾 加 上 'Char 。 例 如 ， 对 
日 paragraphObj.style = 'Quote'。 但 对 于 





日 默认 的 Word 样式 ， 以 及 打开 的 

















可 能 会 改变 。 





13.3.4 ”创建 带 有 非 默 认 样 式 的 Word 文档 
如 果 想 要 创建 的 Word 文档 使 用 默认 样式 以 外 的 样式 ,就 需要 打开 一 个 空白 Word 
文档 , 通过 点 击 样式 窗口 底部 的 New Style 按钮 ， 自 己 创建 样式 (图 13-6 展示 了 
Windows 平台 上 的 情形 )。 









































Strong 


Quote 





Jntense Quote 





btle Reference 


ense Reference 





WwW Preview 
isable Linked Styles 


Options... 
13-6 新 建 样式 按 捏 (左边 ) 和 “根据 格式 设置 创建 新 样式 ”对 话 框 (右边 ) 


这 将 打开 “Creat New Style from Formatting” 对 话 框 ， 在 这 里 可 以 输入 新 样式 。 
然后 ， 回 到 交互 式 环境 ， 用 docx.DocumentO 打 开 这 个 空白 Word 文档 ， 利 用 它 作 为 
Word 文档 的 基础 。 这 种 样式 的 名 称 现在 就 可 以 被 python-docx 使 用 了 。 



































13.3.5 Run 属性 
通过 text 属性 ，Run 可 以 进一步 设置 样式 。 每 个 属性 都 可 以 被 设置 为 3 个 值 之 
一 : True〔 该 属性 总 是 启用 ， 不论 其 他 样式 是 否 应 用 于 该 Run)、False《〈 该 属性 总 是 
禁用 ) 或 None〔 默 认 使 用 该 Run 被 设置 的 任何 属性 )。 

表 13-1 列 出 了 可 以 在 Run 对 象 上 设置 的 text 属性 。 


表 13-1 Run 对 象 的 text 属性 













































































属性 描述 

bolg 文本 以 粗 体 出 现 

I 文本 以 斜体 出 现 
underline 文本 带 下 划 线 

strike 文本 带 删除 线 
double_strike 文本 带 双 删除 线 

a caps 文本 以 大 写 首 字母 出 现 
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属 1 描述 

small_caps 文本 以 大 写 首 字母 出 现 ， 小 写字 母 小 两 个 点 
shadow 文本 带 阴影 

outline 文本 以 轮廓 线 出 现 ， 而 不 是 实心 

rtl 文本 从 右 至 左 书写 

imprint 文本 以 刻 入 页 面 的 方式 出 现 

emboss 文本 以 凸 出 页 面 的 方式 出 现 





























例如 ， 为 了 改变 demo.docx 的 样式 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> doc = docx.Document('demo.docx') 

>>> doc.paragraphs[0].text 

"Document Title' 

>>> doc.paragraphs[0].style 

'Title' 

>>> doc.paragraphs[0].style = 'Normal’' 

>>> doc.paragraphs[1].text 

'A plain paragraph with some bold and some italic' 

>>> (doc.paragraphs[1].runs[0].text, doc.paragraphs[1].runs[1].text, doc. 
paragraphs[1].runs[2].text, doc.paragraphs[1].runs[3].text) 

('A plain paragraph with some ', 'bold', ' and some ', 'italic') 
>>> doc.paragraphs[1].runs[0].style = 'QuoteChar' 

>>> doc.paragraphs[1] .runs[1] .underline = True 

>>> doc.paragraphs[1].runs[3] .underline = True 

>>> doc.save('restyled.docx') 


这 里 , 我 们 使 用 了 text 和 style 属性 ， 以 便 容易 地 看 到 文档 的 段落 中 有 什么 。 我们 可 
以 看 到 ， 很 容易 将 段落 划分 成 Run， 并 单独 访问 每 个 Run。 所 以 我 们 取得 了 第 二 段 中 的 
第 一 、 第 二 和 第 四 个 Run， 设 置 每 个 Run 的 样式 ， 将 结果 保存 到 一 个 新 文档 。 

文件 顶部 的 单词 Document Title 将 具有 Normal 样式 ， 而 不 是 Title 样式 。 针 对 
文本 A plain paragraph 的 Run 对 象 , 将 具有 QuoteChar 样式 。 针 对 单词 bold 和 italic 
的 两 个 Run 对 象 ， 它 们 的 underline 属性 设置 为 True。 图 13-7 展示 了 文件 中 段落 和 
Run 的 样式 看 起 来 的 样子 。 


Intense Emphasis 
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Strong 
Quote 





Document Title 








Intense Quote 


A plain paragraph with some bold and some italic. 


Subtle Reference 





Intense Reference 





13-7 restyled.docx 文件 


访问 https://python-docx.readthedocs.org/en/latest/user/styles.html， 你 可 以 看 到 ， 
python-docx 使 用 样式 的 更 完整 文档 。 


















































13.3.6” 写 入 Word 文档 
企 交 互 式 环 境 中 输入 以 下 代码 : 
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>>> import docx 

>>> doc = docx.Document() 

>>> doc.add paragraph('Hello world!') 
<docx.text.Paragraph object at Ox0000000003B56F60> 
>>> doc.save('helloworld.docx') 


要 创建 自己 的 .docx 文件 ， 就 调用 docx.DocumentO0， 返 回 一 个 新 的 、 空 白 的 Word 
Document 对 象 。Document 对 象 的 add_paragraph0 方 法 将 一 段 新 文 本 添加 到 文档 中 ， 
并 返回 添加 的 Paragraph 对 象 的 引用 。 在 添加 完 文 本 之 后 ， 向 Document 对 象 的 save0) 
方法 传 入 一 个 文件 名 字符 串 ， 将 Document 对 象 保存 到 文件 。 

这 将 在 当前 工作 目录 中 创建 一 个 文件 ， 名 为 helloworld.docx。 如 果 打 开 它 ， 就 
像 图 13-8 的 样子 。 









































一 < 























loworld.d Microsoft Word (Product Activation Failed) 





Home | Insert Pagelayout References Mailings Review View Developer Add-Ins 


它 罕 | 外 | AaBbccDd| AaBbccpd AaBbCc - 
TNormal |TNo spacing Heading1 = 


styles 








Hello world! 





pagelofl | Words:2 | | 回 | [EE 





13-8 ”利用 add_paragraph('Hello world!) 创 建 的 Word 文档 























可 以 用 新 的 段落 文本 ， 再 次 调用 add_paragraph() 方 法 ， 添 加 段落 。 或 者 ， 要 在 
己 有 段落 的 末尾 添加 文本 ， 可 以 调用 Paragraph 对 象 的 add_run0 方 法 ， 向 它 传 入 一 
个 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 


>>> import docx 

>>> doc = docx.Document() 

>>> doc.add paragraph('Hello world!') 

<docx.text.Paragraph object at Ox000000000366AD30> 

>>> paraobj1 = doc.add paragraph('This is a second paragraph.') 

>>> paraobj2 = doc.add paragraph('This is a yet another paragraph.') 

>>> parao0bj1.add_ run(' This text is being added to the second paragraph.') 
<docx.text.Run object at 0x0000000003A2C860> 

>>> doc.save('multipleParagraphs.docx') 


得 到 的 文本 如 图 13-9 所 示 。 请 注意 ， 文 本 This text is being added to the second 
paragraph. 被 添加 到 paraObjl 中 的 Paragraph 对 象 中 ， 它 是 添加 到 doc 中 的 第 二 段 。 
add_paragraphO 和 add_run0 分 别 返 回 Paragraph 和 Run 对 象 ， 这 样 你 就 不 必 多 花 一 
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步 来 提取 它们 。 


Home | Insert Pagelayout References Mailings Revew View Developer Add-ins 


Sbles ~ 


-恒星 Er: 人 Find - 
Cambria(Body) -11 ~ 本 -| 名 -~ -和 -| 栓 桂 1 

a AaBbCcD(| AaBbCcD( AaBbCcl - 从 起 ,Replace 
3 区 > ME 了 TNormal |TNo Spacing Heading1 |= Change ES 


paragraph 加 Styles mG Editing 











Hello world! 
This is a second paragraph. This text is being added to the second paragraph. 


This is a yet another paragraph. 








page:1of1 | Words:22 | < | 回 | 必 同 | 央 蝇 去 三 100% 人) 
13-9 添加 了 多 个 Paragraph 和 Run 对象 的 文档 


要 记 住 ， 对 于 python-docx 的 0.5.3 版 本 ， 新 的 Paragraph 对 象 只 能 添加 在 文档 
的 末尾 ， 新 的 Run 对 象 只 能 添加 在 Paragraph 对 象 的 末尾 。 

可 以 再 次 调用 save(0 方 法 ， 保 存 所 做 的 变更 。 

add_paragraph0 和 add_run0 都 接受 可 选 的 第 二 个 参数 ， 它 是 表示 Paragraph 或 
Run 对 象 样式 的 字符 串 。 例 如 : 


>>> doc.add paragraph('Hello world!', 'Title') 


这 一 行 添 加 了 一 段 ， 文 本 是 Hello world!， 样 式 是 Title。 














13.3.7 ”添加 标题 
调用 add_heading0 将 添加 一 个 段落 ， 并 使 用 一 种 标题 样式 。 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> doc = docx.Document() 

>>> doc.add heading('Header 0', 0) 
<docx.text.Paragraph object at Ox00000000036CB3C8> 
>>> doc.add heading('Header 1', 1) 
<docx.text.Paragraph object at Ox00000000036CB630> 
>>> doc.add heading('Header 2', 2) 
<docx.text.Paragraph object at Ox00000000036CB828> 
>>> doc.add heading('Header 3', 3) 
<docx.text.Paragraph object at Ox00000000036CB2E8> 
>>> doc.add heading('Header 4', 4) 
<docx.text.Paragraph object at Ox00000000036CB3C8> 
>>> doc.save('headings.docx') 


add_heading() 的 参数 ， 是 一 个 标题 文本 的 字符 串 ， 以 及 一 个 从 0 到 4 的 整数 。 整 
数 0 表示 标题 是 Title 样式 ， 这 用 于 文档 的 顶部 。 整 数 1 到 4 是 不 同 的 标题 层次 ，1 
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13.3.8 


13.3.9 








是 主要 的 标题 ，4 是 最 低层 的 子 标题 。add_heading0 返 回 一 个 Paragraph 对 象 ， 让 你 





不 必 多 花 一 步 从 Document 对 象 ! 
得 到 的 headings.docx 文件 如 





Header0 


Header 1 
Header 2 
Header 3 


Header4 








提取 它 。 








图 13-10 所 示 。 





13-10 ” 带 有 标题 0 到 4 的 headings.docx 文档 


添加 换行 符 和 换 页 符 
要 添加 换行 符 〔 而 不 是 开始 一 个 新 的 段落 )， 可 以 在 Run 对 象 上 调用 add_break0 方 











法 , 换行 符 将 出 现在 它 后 面 ,如果 希 望 
作为 唯一 的 参数 ， 传 递 给 add_break0， 就 像 下 面 代码 中 间 所 做 的 一 样 


>>> doc = docx.Document() 


>>> doc.add paragraph('This is on the first page!') 























添加 换 页 符 , 可 以 将 docx.text.WD_BREAK.PAGE 














<docx.text.Paragraph object at Ox0000000003785518> 
© >>> doc.paragraphs[0] .runs[0].add break(docx.text.WD BREAK.PAGE) 


>>> doc.add paragraph('This is on the second page!') 


<docx.text.Paragraph object at Ox00000000037855F8> 
>>> doc.save('twoPage.docx') 


这 创建 了 一 个 两 页 的 Word 文档 ， 第 一 页 上 是 This is on the first page!， 第 二 
上 是 This is on the second page!。 虽 然 在 文本 This is on the first page! 之 后 ， 
有 大 量 的 空间 ， 但 是 我 们 在 第 一 段 的 第 一 个 Run 之 后 插入 分 页 符 ， 强 制 下 一 段落 














现在 新 的 页 面 中 @。 








添加 图 像 








TT 











I 
小 
3 
丘 次 司 

















Document 对 象 有 一 个 add_picture0 方 法 ， 让 你 在 文档 末尾 添加 图 像 。 假 定 当前 








工作 目录 中 有 一 个 文 伯 











F zophie.png, 你 可 以 输入 以 下 代码 , 在 文档 末尾 添加 zophie.png， 























宽度 为 1 英寸 ， 高 度 为 4 厘米 (Word 可 以 同时 使 用 英制 和 公制 单位 ): 


>>> doc.add picture('zophie.png', width=docx.shared.Inches(1), 
height=docx.shared.cm(4)) 
<docx.shape.InlineShape object at Ox00000000036C7D30> 








I7 





参数 ,将 设置 该 图 


第 一 个 参数 是 一 个 字符 串 ， 表 示 








像 在 文档 














图 像 的 文件 


名 。 可 选 的 width 和 height 关键 字 
的 宽度 和 高 度 。 如 果 省 略 ， 宽 度 和 高 度 将 采用 默认 值 ， 
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即 该 图 像 的 正常 尺寸 。 
































你 可 能 愿意 用 熟悉 的 单位 来 指定 图 像 的 高 度 和 宽度 ， 诸 如 英寸 或 厘米 。 所 以 在 指 
定 width 和 height 关键 字 参 数 时 ， 可 以 使 用 docx.shared.InchesO0 和 docx.shared.Cm() 函 数 。 


13.4 小 结 

































































文本 信息 不 仅仅 是 纯 文本 文件 ， 实 际 上 ， 很 有 可 能 更 经 常 遇 到 的 是 PDF 和 Word 文 



































档 。 可 以 利用 PyPDF2 模块 来 读 写 PDF 文档 。 遗 憾 的 是 ， 从 PDF 文档 读 取 文 本 并 非 总 
是 能 得 到 完美 转换 的 字符 串 ， 因 为 PDF 文档 的 格式 很 复杂 ， 某 些 PDF 可 能 根本 读 不 出 


























来 。 在 这 种 情况 下 ， 你 就 不 太 走 运 了 ， 除 非 将 来 PyPDF2 更 新 ， 支 持 更 多 的 PDF 功能 。 
Word 文档 更 可 靠 , 可 以 用 python-docx 模块 来 读 取 。 可 以 通过 Paragraph 和 Run 
对 象 来 操作 Word 文档 中 的 文本 。 可 以 设置 这 些 对 象 的 样式 ， 尽 管 必须 使 用 默认 的 





样式 ， 或 文档 中 已 有 的 
只 能 在 文档 的 末尾 。 



























































F 式 。 可 以 添加 新 的 段落 、 标 题 、 换 行 换 页 符 和 图 人像， 尽管 








在 处 理 PDF 和 Word 文档 时 有 很 多 限制 , 这 是 因为 这 些 格式 的 本 意 是 很 好 地 展示 给 人 
看 ， 而 不 是 让 软件 易于 解析 。 下 一 章 将 探讨 存储 信息 的 另外 两 种 常见 格式 : JSON 和 CSV 
文件 。 这 些 格式 是 设计 给 计算 机 使 用 的 。 你 会 看 到 ，Python 处 理 这 些 格 式 要 容易 得 多 。 











13.5 “习题 























1. 不 能 将 PDF 文件 名 的 字符 串 传 递 给 PyPDF2.PdfFileReaderO 函 数 。 应 该 向 该 


函数 传递 什么 ? 





2. PdfFileReader() 和 PdfFileWriter() 需 要 的 File 对 象 ， 应 该 以 何 种 模式 打开 ? 


AAA 


3， 如 何 从 PdfFileReader 对 象 中 取得 第 5 页 的 Page 对 象 ? 
4. 什么 PdfFileReader 变量 保存 了 PDF 文档 的 页 数 ? 
5. 如 果 PdfFileReader 对 象 表示 的 PDF 文档 是 用 口令 swordfish 加 密 的 ， 应 该 














先 做 什么 


























rr ~» 





6. 使 用 什么 方法 来 旋转 页 面 ? 





























才能 从 中 取得 Page 对 象 ? 

















7. 什么 方法 返回 文件 demo.docx 的 Document 对 象 ? 
8. Paragraph 对 象 和 Run 对 象 之 间 的 区 别 是 什么 ? 


9. doc 变量 保存 了 一 个 Document 对 象 ， 如 何 从 中 得 到 Paragraph 对 象 的 列表 ? 











10. 哪 种 类 型 的 对 象 具 有 bold、underline、italic、strike 和 outline 变量 ? 

11. bold 变量 设置 为 True、False 或 None， 有 什么 区 别 ? 

12. 如 何 为 一 个 新 Word 文档 创建 Document 对 象 ? 

13. doc 变量 保存 了 一 个 Document 对 象 ， 如 何 添加 一 个 文本 是 'Hello there!' 的 











段落 ? 
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14. 哪些 整数 表示 Word 文档 


13.6 ”实践 项 目 
作为 实践 ， 编 

















13.6.1 PDF 偏执 狂 





利用 第 9 章 的 os.walk0 函 数 编 


文件 夹 )， 用 命令 行 提 供 的 


后 级 ， 保 存 每 个 加 密 的 PDF。 在 
该 文件 ， 确 保 它 被 正确 的 加 密 。 

个 程序 , 找到 文件 夹 中 所 有 加 密 的 PDF 文件 (包括 它 的 子 文件 夹 )， 
| 建 PDF 的 解密 拷贝 。 如 果 口 





人 到 


然后 编写 
提供 的 口 























令 ， 











利用 他 

















可 用 的 标题 级 别 ? 


程 完成 下 列 任务 。 


4 开 


一 个 脚本 ， 裔 历 文件 夹 中 的 所 有 PDF (包含 子 




















口令 对 这 些 PDF 加 密 。 用 原来 的 文件 名 加 上 _encrypted.pdf 
川 除 原 来 的 文件 之 前 ， 淮 试用 一 个 程序 读 取 并 解密 























令 不 对 ， 程 序 应 该 打印 一 条 消 妃 ， 





并 继续 处 理 下 一 个 PDF 文件 。 


13.6.2 ”定制 邀请 函 ， 保 存 为 Word 文档 








假设 你 有 一 个 客人 名 单 的 文本 文件 。 这 个 guests.txt 文件 每 行 有 一 个 名 字 , 像 下 





面 这 样 : 
Prof. Plum 
Miss Scarlet 
Col. Mustard 
Al Sweigart 
RoboCop 

















写 一 个 程序 ， 生 成 定制 邀请 函 的 Word 文档 ， 如 



































Wa- ol Document: 
Home | Insert Pagelayout References Mailings Review View Developer Add-Ins A@ 
Ey] ¥% BrushScript std 说 | 
a es [ AaBbcepd| AaBbccDd AaBbC( 人 然 名 
中 BI U- sb x 生 - | 有 
| a | 》 TNormal |TNo spacing Heading1 |= 二 Edging 
Clipboard 后 Font Styles 
图 
化 wauld be a pleaaunre to haue the company of 从 
Robocop = 
a¢ 17070 Memary Lane aon the Evening of 司 
April 1st 
at 7 oa clack 
4 人 
page:lofl | Words:24 | < 当 | 四 | | 周明 局 委 主 ,al00x (> LU om 

















图 13-11 


定制 的 邀请 函 脚本 生成 的 Word 文档 
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因为 python-docx 只 能 使 用 Word 文档 中 已 经 存在 的 样式 , 所 以 你 必须 先 将 这 些 
样式 添加 到 一 个 空白 Word 文件 中 ， 然 后 用 python-docx 打开 该 文件 。 在 生成 的 Word 
文档 中 ， 每 份 邀 请 函 应 该 占据 一 页 ， 所 以 在 每 份 洲 请 函 的 最 后 一 段 调用 add_break0)， 
添加 分 页 符 。 这 样 ， 你 只 需要 打开 一 份 Word 文档 ， 就 能 打印 所 有 的 邀请 函 。 

你 可 以 从 http://mostarch.com/automatestuff/ 下 载 示 例 guests.txt 文件 。 

















































































































13.6.3 ”暴力 PDF 口令 破解 程序 

假定 有 一 个 加 密 的 PDF 文件 ,你 忘记 了 口令 , 但 记得 它 是 一 个 英语 单词 。 尝试 
猜测 遗忘 的 口令 是 很 无 聊 的 任务 。 作 为 蔡 代 ， 你 可 以 写 一 个 程序 ， 尝 试用 所 有 可 能 
的 英语 单词 来 解密 这 个 PDF 文件 ， 直 到 找到 有 效 的 口令 。 这 称 为 暴力 口令 攻击 。 从 
http://nostarch.com/automatestuff/ 下 载 文本 文件 dictionary.txt。 这 个 字典 文件 包含 44000 
多 个 英语 单词 ， 每 个 单词 占 一 行 。 

利用 第 8 章 学 过 的 文件 读 取 技 巧 来 读 取 这 个 文件 ， 创 建 一 个 单词 字符 串 的 列表 。 
然后 循环 遍历 这 个 列表 中 的 每 个 单词 ， 将 它 传递 给 decrypt(0 方 法 ， 如 果 这 个 方法 返 
回 整 数 0， 口 令 就 是 错 的 ， 程 序 应 该 继续 尝试 下 一 个 口令 。 如 果 decrypt0 返 回 1， 
程序 就 应 该 终止 循环 ， 打 印 出 破解 的 口令 。 你 应 该 尝试 每 个 单词 的 大 小 写 形式 〈 在 
我 的 笔记 本 上 ， 遍 历来 自 字 典 文件 的 所 有 88000 个 大 小 写 单词 ， 只 要 几 分 钟 时 间 。 
这 就 是 不 应 该 使 用 简单 英语 单词 作为 口令 的 原因 )。 
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文件 是 简化 的 
JSON 〔〈 发 音 为 “JAYsawn” 或 “Jason”， 但 如 何 发 音 并 不 重要 。 因 
恩 保 存在 纯 文 本 文件 中 。 
JSON 是 JavaScript Object Notation 的 缩写 不 需要 知道 








使 朋 


























14.1 csv 模块 





CSV 文件 


中 的 每 行 代表 


s14= 


处 理 CSV 文件 和 JSON 数据 


千 第 


13 章 中， 你 学 








习 了 如 何 从 PDF 和 Word 文档 中 提取 














文本 。 这些 文件 是 二 进 制 格式 , 需要 特殊 的 Python 模块 来 访问 


它们 的 数据 。CSV 和 JSON 文件 则 不 














可 以 ) 





j 文 本 编辑 器 察看 它 
































助 你 处 理 这 些 文 件 格式 。 





CSV 表示 “Comma-Separated Values (逗号 分 
电子 表格 , 保存 为 纠 














文本 文件 .Python 的 csv 模块 让 解析 CSV 文件 











\ 同 ， 





它们 是 纯 文本 文件 。 





们 ,诸如 IDLE 的 文件 编辑 器 。 但 Python 
也 有 专门 的 csv 和 json 模块 ， 每 个 模块 都 提供 





























隔 的 值 )” CSV 
变 得 容易 。 








为 无 论 如 何 











都 会 有 人 说 你 发 音 错误 ) 是 一 种 格式 ， 它 以 JavaScript 源 代 码 的 形式 ， 将 信 

















JavaScript 编程 语言 ， 就 可 以 








有 JSON 文件 ， 但 了 解 JSON 格式 是 有 用 的 ， 因 











为 它 





用 于 许多 Web 应 用 程序 中 。 














电子 表格 中 的 一 行 ，; 


逐 号 





分 割 了 该 


行 中 的 单元 格 。 例 如 ， 

















来 自 http://nostarch.com/automatestuff/ 的 电子 表格 example.xlsx， 在 一 个 CSV 文件 中 ， 
看 起 来 像 这 样 : 


4/5/2015 13:34,Apples,73 
4/5/2015 3:41,Cherries,85 
4/6/2015 12:46,Pears,14 
4/8/2015 8:59,0ranges,52 
4/10/2015 2:07,Apples,152 
4/10/2015 18:10,Bananas,23 
4/10/2015 2:40,Strawberries,98 


我 将 使 用 这 个 文件 作为 本 章 的 交互 式 环境 的 例子 。 可 以 从 http://nostarch.com/ 
automatestuff/ 下 载 example.csv， 或 在 文本 编辑 器 中 输入 文本 ， 并 保存 为 example.csv。 
CSV 文件 是 简单 的 ， 缺 少 Excel 电子 表格 的 许多 功能 。 例 如 ，CSV 文件 中 : 
。 值 没有 类 型 ， 所 有 东西 都 是 字符 串 ; 
。 没有 字体 大 小 或 颜色 的 设置 ; 
。 没有 多 个 工作 表 ; 
。 不 能 指定 单元 格 的 宽度 和 高 度 ; 
。 不 能 合并 单元 格 ; 
。 不 能 典 入 图 像 或 图 表 。 
CSYV 的 文件 的 优势 是 简单 。CSYV 文件 被 许多 种 类 的 程序 广泛 地 支持 ， 可 以 在 文 
本 编辑 器 中 查看 (包括 IDLE 的 文件 编辑 器 )， 它 是 表示 电子 表格 数据 的 直接 方式 。 
CSYV 格式 和 它 声 称 的 完全 一 致 ， 它 就 是 一 个 文本 文件 ， 具 有 逗号 分 隔 的 值 。 
因为 CSV 文件 就 是 文本 文件 ， 所 以 你 可 能 会 尝试 将 它们 读 入 一 个 字符 串 ， 然 
后 用 第 8 章 中 学 到 的 技术 处 理 这 个 字符 串 。 例 如 ， 因 为 CSV 文件 中 的 每 个 单元 格 
有 有 逗号 分 制 ， 也 许 你 可 以 只 是 对 每 行文 本 调用 split0 方 法 ， 来 取得 这 些 值 。 但 并 非 
CSV 文件 中 的 每 个 逗号 ， 都 表示 两 个 单元 格 之 间 的 分 界 。CSV 文件 也 有 自己 的 转 义 
字符 ， 人 允许 有 逗号 和 其 他 字符 作为 值 的 一 部 分 。split0 方 法 不 能 处 理 这 些 转 义 字符 。 因 
为 这 些 潜在 的 缺陷 ， 所 以 总 是 应 该 使 用 csv 模块 来 读 写 CSV 文件 。 































































































































































































































































































































































































14.1.1 Reader 对 象 
要 用 csv 模块 从 CSV 文件 中 读 取 数 据 ， 需 要 创建 一 个 Reader 对 象 。Reader 对 
象 让 你 迭代 遍历 CSV 文件 中 的 每 一 行 。 在 交互 式 环境 中 输入 以 下 代码 ， 同 时 将 
example.csv 放 在 当前 工作 目录 中 : 

















© >>> import cSsVv 

@ >>> exampleFile = open('example.csv') 

© >>> exampleReader = csv.reader (exampleFile) 

@ >>> exampleData = list(exampleReader) 

© >>> exampleData 
[['4/5/2015 13:34', 'Apples', '73'], ['4/5/2015 3:41', 'Cherries', '85'], 
['4/6/2015 12:46','Pears', '14'], ['4/8/2015 8:59', 'Oranges', '52'], 
['4/10/2015 2:07', 'Apples', '152'], ['4/10/2015 18:10', 'Bananas', '23'], 


['4/10/2015 2:40',，'Strawberries', '98']] 
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csv 模块 是 Python 自 带 的 ， 所 以 不 需要 安装 就 可 以 导入 它 @。 























要 用 csv 模块 读 取 CSV 文件 ， 首 先 用 open0 函 数 打 开 它 @， 就 像 打 玫 





F 任 何其 他 




















文本 文件 一 样 。 但 是 ， 不 用 在 open0 返 回 的 File 对 象 上 调用 read0 或 readlines(0) 方 法 ， 














而 是 将 它 传递 给 csvreader(O 函 数目 。 这 将 返回 一 个 Reader 对 象 , 供 你 使 用 
不 能 直接 将 文件 名 字符 串 传递 给 csvreaderO 函 数 。 
要 访问 Reader 对 象 中 的 值 ， 最 直接 的 方法 ， 就 是 将 它 转换 成 一 个 普通 









































将 显示 列表 的 列表 @。 























o 全 六 忆 ， 


Python 列 


表 ， 即 将 它 传递 给 list0@。 在 这 个 Reader 对 象 上 应 用 list0 函数 ， 将 返回 一 个 列表 
的 列表 。 可 以 将 它 保 存在 变量 exampleData 中 。 在 交互 式 环境 中 输入 exampleData， 


既然 已 经 将 CSV 文件 表示 为 列表 的 列表 ， 就 可 以 用 表达 式 exampleData 
[row][col] 来 访问 特定 行 和 列 的 值 。 其 中 ，row 是 exampleData 中 一 个 列表 的 下 标 ， 












































col 是 该 列表 中 你 想 访问 的 项 的 下 标 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> exampleData[0][0] 
'4/5/2015 13:34' 

>>> exampleData[0][1] 
'Apples' 

>>> exampleData[0][2] 
473， 

>>> exampleData[1][1] 
'Cherries' 

>>> exampleData[6][1] 
'Strawberries' 





























exampleData[0][0] 进 入 第 一 个 列表 ， 并 给 出 第 一 个 字符 串 。exampleData[0][2] 进 入 








第 一 个 列表 ， 并 给 出 第 三 个 字符 串 ， 以 此 类 推 。 





14.1.2 在 for 循环 中 ， 从 Reader 对 象 读 取 数 据 











对 于 大 型 的 CSV 文件 ， 你 需要 在 一 个 for 循环 中 使 用 Reader 对 象 。 
将 整个 文件 一 次 性 装 入 内 存 。 例 如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 
>>> Import CSV 
>>> exampleFile = open('example.csv ') 


>>> exampleReader = csv.reader (exampleFile) 
>>> for row in exampleReader: 











print('Row #' + str(exampleReader.line num) + ' ' + str(row)) 

Row #1 ['4/5/2015 13:34', 'Apples', '73'] 

Row #2 ['4/5/2015 3:41', 'Cherries', '85'] 

Row #3 ['4/6/2015 12:46', 'Pears', '14'] 

Row #4 ['4/8/2015 8:59', 'Oranges', '52'] 

Row #5 ['4/10/2015 2:07', 'Apples', '152'] 

Row #6 ['4/10/2015 18:10','Bananas', '23'] 

Row #7 ['4/10/2015 2:40', 'Strawberries', '98'] 


在 导入 csy 模块， 并 从 CSV 文件 得 到 Reader 对 象 之 后 ， 可 以 循环 遍历 
象 中 的 行 。 每 一 行 是 一 个 值 的 列表 ， 每 个 值 表示 一 个 单元 格 。 
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printO 函 数 将 打印 出 当前 行 的 编号 以 及 该 行 的 内 容 。 要 取得 行 号 ， 就 使 用 Reader 
对 象 的 line_num 变量 ， 它 包含 了 当前 行 的 编号 。 

Reader 对 象 只 能 循环 遍历 一 次 。 要 再 次 读 取 CSYV 文件 ， 必 须 调用 csv.reader， 创 
建 一 个 对 象 。 



































14.1.3 ”Writer 对 象 
Writer 对 象 让 你 将 数据 写 入 CSV 文件 。 要 创建 一 个 Writer 对 象 ， 就 使 用 
csVwriiter0 函 数 。 在 交互 式 环境 中 输入 以 下 代码 。 


>>> import CSV 
© >>> outputFile = open('output.csv', 'w', newline='') 
@ >>> outputWriter = csv.writer(outputFile) 
>>> outputWriter.writerow(['spam', 'eggs', 'bacon', 'ham']) 




















21 

>>> outputWriter.writerow(['Hello, world!', 'eggs', 'bacon', 'ham']) 
32 

>>> outputWriter.writerow([1, 2, 3.141592, 4]) 

16 


>>> outputFile.close() 

首先 ， 调 用 openO0 并 传 入 'w'， 以 写 模式 打开 一 个 文件 @ 。 这 将 创建 对 象 。 然 后 
将 它 传递 给 csv.writer0@， 创 建 一 个 Writer 对 象 。 

在 Windows 上 ， 需 要 为 open0 函 数 的 newline 关键 字 参 数 传 入 一 个 空 字符 串 。 
这 样 做 的 技术 原因 超出 了 本 书 的 范围 。 如 果 忘 记 设 置 newline 关键 字 参 数 ，output.csv 
中 的 行距 将 有 两 倍 ， 如 图 14-1 所 示 。 




































































A 下 | 42 

A B 5 D E F 5 
1 42| 2 3 和 4 5 6 7 
2 
3 2 4 E 8 1 12 1 
4 
5 3 6 9 12 15 18 21 

4 8 12 16 20 2 28 


14-1 如 果 你 在 open0 中 忘记 了 newline='" 关 键 字 参数 ，CSV 文件 将 有 两 倍 行距 


Writer 对 象 的 writerow0 方 法 接受 一 个 列表 参数 。 列表 中 的 每 个 词 , 放 在 输出 的 
CSV 文件 中 的 一 个 单元 格 中 。writerow0O 函 数 的 返回 值 ， 是 写 入 文件 中 这 一 行 的 字 
符 数 〈 包 括 换行 字符 )。 

这 段 代 码 生 成 的 文件 像 下 面 这 样 : 


spam,eggs,bacon,ham 
"Hello, world!",eggs,bacon,ham 
1,2,3.141592,4 


请 注意 ，Writer 对 象 自动 转 义 了 'Hello, world!' 中 的 有 逗号， 在 CSV 文件 







































































使 用 了 
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双 引 号 。 模 块 csy 让 你 不 必 自 己 处 理 这 些 特 殊 情 况 。 

















14.1.4 delimiter 和 lineterminator 关键 字 参 数 


14.2 


隘 
下 





假定 你 希望 用 制 表 符 代 蔡 喜 号 来 分 隔 单元 格 ， 并 希望 有 两 倍 行距 。 可 以 在 交互 
式 环 境 中 输入 下 面 这 样 的 代码 : 
>>> Import csyv 


>>> csvFile = open('example.tsv', 'w', newline='') 
>>> csvWriter = csv.writer(csvFile, delimiter='\t', lineterminator='\n\n') 












































>>> csvWriter.writerow(['apples', 'oranges', 'grapes']) 

24 

>>> csvWriter.writerow(['eggs', 'bacon', 'ham']) 

17 

>>> csvWriter.writerow(['spam', 'spam', 'spam', 'spam', 'spam', 'spam']) 
32 


>>> csvFile.close() 

这 改变 了 文件 中 的 分 隔 符 和 行 终止 字符 。 分 隔 符 是 一 行 中 单元 格 之 间 出 现 的 字 
符 。 默 认 情 况 下 ，CSV 文件 的 分 隔 符 是 逗号 。 行 终止 字符 是 出 现在 行 末 的 字符 。 默 
认 情 况 下 ， 行 终止 字符 是 换行 符 。 你 可 以 利用 csvwriter0 的 delimiter 和 lineterminator 
关键 字 参 数 ， 将 这 些 字符 改 成 不 同 的 值 。 

传 入 delimeter=\t 和 lineterminator=\n\n'@， 这 将 单元 格 之 间 的 字符 改变 为 制 表 符 ， 
将 行 之 间 的 字符 改变 为 两 个 换行 符 。 然 后 我 们 调用 writerow0 三 次 ， 得 到 3 行 。 

这 产生 了 文件 example.tsv， 包 含 以 下 内 容 : 


apples oranges grapes 

























































































eggs bacon ham 
Spam Spam Spam Spam Spam Spam 


既然 单元 格 是 由 制 表 符 分 隔 的 ， 我 们 就 使 用 文件 扩展 名 .tsv， 表 示 制 表 各 
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) 隔 的 值 。 























项 目 : 从 CSV 文件 中 删除 表 头 


假设 你 有 一 个 枯燥 的 任务 ， 要 删除 几 百 CSV 文件 的 第 一 行 。 也 许 你 会 将 它们 送 入 一 
个 自动 化 的 过 程 ， 只 需要 数据 ， 不 需要 每 列 顶 部 的 表 头 。 可 以 在 Excel 中 打开 每 个 文件 ， 
删除 第 一 行 ， 并 重新 保存 该 文件 ， 但 这 需要 几 个 小 时 。 让 我 们 写 一 个 程序 来 做 这 件 事 。 

该 程序 需要 打开 当前 工作 目录 中 所 有 扩展 名 为 .csy 的 文件 , 读 取 CSYV 文件 的 内 
容 ， 并 除 掉 第 一 行 的 内 容重 新 写 入 同名 的 文件 。 这 将 用 新 的 、 无 表 头 的 内 容 蔡 换 
CSYV 文件 的 旧 内 容 。 


与 往常 一 样 ， 当 你 写 程序 修改 文件 时 ， 一 定 要 先 备 份 这 些 文件 ， 以 防 万 一 你 的 
程序 没有 按期 望 的 方式 工作 。 你 不 硕 望 意外 地 删除 原始 文件 。 




































































| 


























第 14 章 处 理 CSV 文件 和 JSON 数据 ” 269 


总 的 来 说 ， 该 程序 必须 做 到 以 下 几 点 : 
。 找 出 当前 工作 目录 中 的 所 有 CSYV 文件 。 
。 读 取 每 个 文件 的 全 部 内 容 。 

。 跳 过 第 一 行 ， 将 内 容 写 入 一 个 新 的 CSV 文件 。 

在 代码 层面 上 ， 这 意味 着 该 程序 需要 做 到 以 下 几 点 : 

。 循环 遍历 从 os.listdir0 得 到 的 文件 列表 ， 跳 过 非 CSV 文件 。 
。 创建 一 个 CSV Reader 对 象 ， 读 取 该 文件 的 内 容 ， 利 用 line_num 属性 确定 要 跳 

过 哪 一 行 。 
。 创建 一 个 CSV Writer 对 象 ， 将 读 入 的 数据 写 入 新 文件 。 

针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 removeCsvHeaderpy。 














































































































第 1 步 : 循环 遍历 每 个 CSV 文件 
程序 需要 做 的 第 一 件 事情 ， 就 是 循环 遍历 当前 工作 目录 中 所 有 CSV 文件 名 的 
列表 。 让 removeCsvHeaderpy 看 起 来 像 这 样 : 


#! python3 
# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 















































import csv, os 
os.makedirs('headerRemoved', exist ok=True) 


# Loop through every file in the current working directory. 
for csvFilename in os.listdir('.'): 
if not csvFilename.endswith('.csv’'): 
0 continue # skip non-csv files 


print('Removing header from ' + csvFilename + '...') 

# TODO: Read the CSV file in (skipping first row). 

# TODO: Write out the CSV file. 

os.makedirsO 调 用 将 创建 headerRemoved 文件 来， 所 有 的 无 表 头 的 CSV 文件 将 
写 入 该 文件 来 。 针 对 os.listdir(.) 进 行 for 循环 完成 了 一 部 分 任务 ， 但 这 会 遍历 工作 
目录 中 的 所 有 文件 ， 所 以 需要 在 循环 开始 处 添加 一 些 代码 ， 跳 过 扩展 名 不 是 .csv 的 
文件 。 如 果 遇 到 非 CSV 文件 ，continue 语句 @ 让 循环 转向 下 一 个 文件 名 。 

为 了 让 程序 运行 时 有 一 些 输 出 ， 打 印 出 一 条 消息 说 明 程 序 在 处 理 哪个 CSV 文 
件 。 然 后 ， 添 加 一 些 TODO 注释 ， 说 明 程序 的 其 余部 分 应 该 做 什么 。 
















































































第 2 步 : 读 入 CSV 文件 
该 程序 不 会 从 原来 的 CSV 文件 删除 第 一 行 。 但 是 ， 它 会 创建 新 的 CSV 文件 副本 ， 
不 包含 第 一 行 。 因 为 副本 的 文件 名 与 原来 的 文件 名 一 样 ， 所 以 副本 会 覆盖 原来 的 文件 。 
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该 程序 需要 一 种 方法 ， 来 知道 它 的 循环 当前 是 否 在 处 理 第 一 行 。 为 
removeCsvHeaderpy 添加 以 下 代码 。 


#! python3 
# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 








--SNip-- 
# Read the CSV file in (skipping first row). 
csvRows = [] 
csvFile0bj = open(csvFilename) 
reader0bj = csv.reader(csvFile0bj) 
for row in reader0bj : 
if reader0bj.line_num == 1: 
continue # Skip first row 
csvRows.append (row) 
csvFile0bj.close() 


ODO WEEE Uh ae -和 
Reader 对 象 的 line_num 属性 可 以 用 来 确定 当前 读 入 的 是 CSV 文件 的 哪 一 行 。 
另 一 个 for 循环 会 遍历 CSV Reader 对 象 返 回 所 有 行 ， 除了 第 一 行 ， 所 有 行 都 会 添加 
到 csvRows。 
在 for 循环 遍历 每 一 行 时 ， 代 码 检查 reader.line_num 是 否 设 为 1。 如 果 是 这 样 ， 
它 执行 continue， 转 向 下 一 行 ， 不 将 它 添加 到 csvRows 中 。 对 于 之 后 的 每 一 行 ， 条 
件 永 远 是 False， 该 行将 添加 到 csvRows 中 。 
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第 3 步 : 写 入 CSV 文件 ， 没 有 第 一 行 
现在 csvRows 包含 了 除 第 一 行 的 所 有 行 , 该 列表 需要 写 入 headerRemoved 文人 
夹 中 的 一 个 CSV 文件 。 将 以 下 代码 添加 到 removeCsvHeader.py: 


#! python3 

# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 

--SNip-- 


EF 























# Loop through every file in the current working directory. 
© for csvFilename in os.listdir('.'): 
if not csvFilename.endswith('.csv’'): 
continue # Skip non-CSV files 


--SNip-- 


# Write out the CSV file. 
csvFile0bj = open(os.path.join('headerRemoved', csvFilename), 'w', 
newline='') 
csvWriter = csv.writer(csvFile0bj) 
for row in csvRows: 
csvWriter.writerow(row) 
csvFile0bj.close() 


CSV Wiriter 对 象 利用 csvFilename (这 也 是 我 们 在 CSV Reader 中 使 用 的 文件 名 )， 
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将 列表 写 入 headerRemoved 中 的 一 个 CSV 文件 。 这 将 覆盖 原来 的 文件 。 
创建 Writer 对 象 后 ， 我 们 循环 遍历 存储 在 csvRows 中 的 子 列 表 ， 将 每 个 子 列表 
写 入 该 文件 。 
这 段 代码 执行 后 ， 外 层 for 循环 @ 将 循环 到 oslistdir(.) 中 的 下 一 个 文件 名 。 循 
环 结束 时 ， 程 序 就 结束 了 。 
为 了 测试 你 的 程序 ， 从 http:Wnostarch.comyautomatestufB/ 下 载 removeCsvHeader.zip， 
将 它 解 压缩 到 一 个 文件 来 。 在 该 文件 夹 中 运行 removeCsvHeader.py 程序 。 输 出 将 是 
这 样 的 : 












































Removing header from NAICS data 1048.csVv... 
Removing header from NAICS data 1218.csVv... 
--SNip-- 

Removing header from NAICS data 9834.csVv... 
Removing header from NAICS data 9986.csVv... 


这 个 程序 应 该 在 每 次 从 CSV 文件 中 删除 第 一 行 时 ， 打 印 一 个 文件 名 。 


第 4 步 : 类 似 程序 的 想法 
针对 CSV 文件 写 的 程序 类 似 于 针对 Excel 文件 写 的 程序 ， 因 为 它们 都 是 电子 表 
格 文件 。 你 可 以 编程 完成 以 下 任务 : 
。 在 一 个 CSV 文件 的 不 同行 ， 或 多 个 CSV 文件 之 间 比 较 数据 。 
从 CSV 文件 拷贝 特定 的 数据 到 Excel 文件 ， 或 反 过 来 。 
。 检查 CSYV 文件 中 无 效 的 数据 或 格式 错误 ， 并 向 用 户 提醒 这 些 错误 。 
。 从 CSV 文件 读 取 数 据 ， 作 为 Python 程序 的 输入 。 

























































































14.3 JSON 和 API 


JavaScript 对 象 表示 法 是 一 种 流行 的 方式 ， 将 数据 格式 化 ， 成 为 人 可 读 的 字符 
串 。JSON 是 JavaScript 程序 编写 数据 结构 的 原生 方式 ， 通 常 类 似 于 Python 的 pprintO 
函数 产生 的 结果 。 不 需要 了 解 JavaScript， 也 能 处 理 JSON 格式 的 数据 。 

下 面 是 JSON 格式 数据 的 一 个 侦 


{ name": "Zophie", "isCat": true， 
"miceCaught": 0, "napsTaken": 37.5， 
"felineIQ": null} 


了 解 JSON 是 很 有 用 ， 因 为 很 多 网 站 都 提供 JSON 格式 的 内 容 ， 作 为 程序 与 网 
站 交互 的 方式 。 这 就 是 所 谓 的 提供 “应 用 程序 编程 接口 API)” 高 API 和 通过 
URL 访问 任何 其 他 网 页 是 一 样 的 。 不 同 的 是 ，API 返回 的 数据 是 针对 机 器 格式 化 的 
(例如 用 JSON)，API 不 是 人 容易 阅读 的 。 

许多 网 站 用 JSON 格式 提供 数据 。Facebook、Twitter、Yahoo、Google、Tumblr、 
Wikipedia、Flickr、Data.gov、Reddit、IMDb、Rotten Tomatoes、LinkedIn 和 许多 其 
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他 流行 的 网 站 ， 都 提供 API 让 程序 使 用 。 有 些 网 站 需要 注册 ， 这 几乎 都 是 免费 的 。 
你 必须 找到 文档 ， 了 解 程序 需要 请 求 什 么 URL 才能 获得 想 要 的 数据 ， 以 及 返回 的 
JSON 数据 结构 的 一 般 格式 。 这 些 文档 应 在 提供 API 的 网 站 上 提供 , 如 果 它 们 有 “ 开 
发 者 ”页 面 ， 就 去 那里 找 找 。 
利用 API， 可 以 编程 完成 下 列 任务 : 
。 从 网 站 抓 取 原始 数据 (访问 API 通常 比 下 载 网 页 并 用 Beautiful Soup 解析 HTML 
更 方便 )。 
。 自动 从 一 个 社交 网 络 账户 下 载 新 的 帖子 ， 并 发 布 到 另 一 个 账户 。 例 如 ， 可 以 把 
tumblr 的 帖子 上 传 到 Facebook。 
。 从 IMDb、Rotten Tomatoes 和 维基 百科 提取 数据 ， 放 到 计算 机 的 一 个 文本 文件 
中 ， 为 你 个 人 的 电影 收藏 创建 一 个 “电影 百科 全 书 ”。 
可 以 在 http://nostarch.com/automatestuff/ 的 资源 中 看 到 JSON API 的 一 些 例子 。 








































































































































































































14.4 ”json 模块 


Python 的 json 模块 处 理 了 JSON 数据 字符 串 和 Python 值 之 间 转 换 的 所 有 细节 ， 
得 到 了 json.loads0 和 json.dumpsO 函 数 。JSON 不 能 存储 每 一 种 Python 值 ， 它 只 能 
包含 以 下 数据 类 型 的 值 : 字符 串 、 整 型 、 浮 点 型 、 布 尔 型 、 列 表 、 字 典 和 NoneType。 
JSON 不 能 表示 Python 特有 的 对 象 , 如 File 对 象 、CSV Reader 或 Writer 对 象 、Regex 
对 象 或 Selenium WebElement 对 象 。 









































14.4.1 用 loads() 函 数 读 取 JSON 
要 将 包含 JSON 数据 的 字符 串 转换 为 Python 的 值 ， 就 将 它 传 递 给 json.loadsO 函 数 
〈 这 个 名 字 的 意思 是 “load string” 而 不 是 “loads”)。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> StringofJsonData = '{"name": "Zophie", "isCat": true, "miceCaught": 0， 
"felineIQ": null}' 

















>>> import json 

>>> jsonDataAsPythonValue = json.loads(string0fJsonData) 

>>> jsonDataAsPythonValue 

{'isCat': True, 'miceCaught': 0, 'name': 'Zophie', 'felineIQ': None} 


导入 json 模块 后 ， 就 可 以 调用 lo0adsO)， 向 它 传 入 一 个 JSON 数据 字符 串 。 请 注 
意 ，JSON 字符 串 总 是 用 双 引 号 。 它 将 该 数据 返回 为 一 个 Python 字典 。Python 字典 是 
没有 顺序 的 , 所 以 如 果 打 印 jsonDataAsPythonValue, 键 - 值 对 可 能 以 不 同 的 顺序 出 现 。 










































































以 











14.4.2 用 dumps 函数 写 出 JSON 
json.dumpsO 函 数 〈 它 表示 “dump string” 而 三 “dumps”) 将 -个 Python 值 
转换 成 JSON 格式 的 数据 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 
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14.5 


>>> pythonValue = { isCcat': True, 'miceCaught': 0, 'name': 'Zophie '， 
'felineIQ': None} 

>>> import json 

>>> StringofJsonData = json.dumps (pythonValue) 

>>> StringofJsonData 

'{"isCat": true, "felineIQ": null, "miceCaught": 0, "name": "Zophie" }' 


该 值 只 能 是 以 下 基本 Python 数据 类 型 之 一 : 字典 、 列 表 、 整 型 、 浮 点 型 、 字 符 
串 、 布 尔 型 或 None。 

















页 日 : 取得 当前 的 天 气 数 据 











检查 天 气 似乎 相当 简单 : 打开 Web 浏览 器 ,点击 地 址 栏 , 输入 天 气 网 站 的 URL 
(或 搜索 一 个 ， 然 后 点 击 链接 )， 等 待 页 面 加 载 ， 跳 过 所 有 的 广告 等 。 
其 实 ， 如 果 有 一 个 程序 ， 下 载 今后 几 天 的 天 气 预报 ， 并 以 纯 文本 打印 出 来 ， 就 可 
以 跳 过 很 多 无 聊 的 步 又 ,该 程序 利用 第 11 章 介 绍 的 requests 模块 , 从 网 站 下 载 数据 。 
总 的 来 说 ， 该 程序 将 执行 以 下 操作 : 
。 从 命令 行 读 取 请 求 的 位 置 。 
。 从 OpenWeatherMap.org 下 载 JSON 天 气 数据 。 
。 将 JSON 数据 字符 串 转 换 成 Python 的 数据 结构 。 
。 打印 今天 和 未 来 两 天 的 天 气 。 
因此 ， 代 码 需 要 完成 以 下 任务 : 
。 连接 sys.argv 中 的 字符 串 ， 得 到 位 置 。 
。 调用 requests.get0)， 下 载 天 气 数据 。 
。 调用 json.loads()， 将 JSON 数据 转换 为 Python 数据 结构 。 
。 打印 天 气 预报 。 
针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 quickWeatherpy。 
































































































































第 1 步 : 从 命令 行 参数 获取 位 置 


该 程序 的 输入 来 自命 令 行 。 让 quickWeather.py 看 起 来 像 这 样 : 


#! python3 
# quickWeather.py - Prints the weather for a location from the command line. 




















import json, requests, sys 


# Compute location from command line arguments. 
if len(sys.argv) < 2: 
print('Usage: quickWeather.py location') 
sys.exit() 
location = ' '.join(sys.argv[1:]) 


# TODO: Download the JSON data from OpenWeatherMap.org's API. 


# TODO: Load JSON data into a Python variable. 
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在 Python 中 ， 命 令 行 参数 存储 在 sys.argv 列表 里 。# 行 和 import 语句 之 后 ， 程 
序 会 检查 是 否 有 多 个 命令 行 参 数 〈 回 想 一 下 ，sys.argv 中 至 少 有 一 个 元 素 sys.argv[0]， 
它 包 含 了 Python 脚本 的 文件 名 )。 如 果 该 列表 中 只 有 一 个 元 素 ， 那 么 用 户 没 有 在 命 
令 行 中 提供 位 置 ， 程 序 向 用 户 提供 “Usage (用 法 )” 信 息 ， 然 后 结束 。 

命令 行 参数 以 空格 分 隔 。 命 令 行 参数 San Francisco，CA 将 使 sys.argv 中 保存 
['quickWeather.py', 'San', Francisco,, 'CA]。 因 此 ， 调 用 join0 方 法 ， 将 sys.argv 中 除 第 一 
个 字符 串 以 外 的 字符 串 连 接 起 来 。 将 连接 的 字符 串 存 储 在 变量 location 中。 






























































































































































第 2 步 : 下 载 JSON 数据 
OpenWeatherMap.org 提供 了 JSON 格式 的 实时 天 气 信息 。 你 的 程序 只 需要 下 载 
页 面 http://api.openweathermap.org/data/2.5/forecast/daily?q=<Location>&cnt=3， 其 r 
<Location> 是 想 知道 天 气 的 城市 。 将 以 下 代码 添加 到 quickWeatherpy 中 。 


#! python3 
# quickWeather.py - Prints the weather for a location from the command line. 




















--SNip-- 


# Download the JSON data from OpenWeatherMap.org's API. 

url ='http://api.openweathermap.org/data/2.5/forecast/daily?q=%s&cnt=3' % (location) 
response = requests.get(url) 

response.raise for status() 


# TODO: Load JSON data into a Python variable. 

我 们 从 命令 行 参数 中 得 到 了 location。 为 了 生成 要 访问 的 网 址 ， 我 们 利用 %s 占 
位 符 ， 将 location 中 保存 的 字符 串 插 入 URL 字符 串 的 那个 位 置 。 结 果 保 存在 url 中 ， 并 
将 url 传 入 requests.get()。requests.get0 调 用 返回 一 个 Response 对 象 ， 它 可 以 通过 调用 
raise_for status0 来 检查 错误 。 如 果 不 发 生 异 常 ， 下 载 的 文本 将 保存 在 response.text 中 。 

























































































第 3 步 : 加 载 JSON 数据 并 打印 天 气 
response.text 成 员 变量 保存 了 一 个 JSON 格式 数据 的 大 字符 串 。 要 将 它 转 换 为 
Python 值 ， 就 调用 json.loads0 函 数 。JSON 数据 会 像 这 样 : 


{'city': {'coord': {'lat': 37.7771, 'lon': -122.42}, 





























'country': 'United States of America', 
'id': '5391959'， 
'name': 'San Francisco', 
‘population': 0}, 
'cnt': 3， 
'cod': '200', 
'list': [{'clouds': 0， 
'deg': 233， 


'dt': 1402344000， 
‘humidity': 58, 
'pressure': 1012.23， 
'speed': 1.96， 
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‘temp': {'day': 302.29， 
'eve': 296.46， 
'max': 302.29, 
‘min': 289.77， 
‘morn': 294.59, 
'night': 289.77}, 
'weather': [{'description': 'sky is clear' 
'icon': '01d', 
--SNip-- 


可 以 将 weatherData 传 入 pprint.pprint， 查 看 这 个 数据 。 你 可 能 要 查找 http:// 
openweathermap.org/， 找到 关于 这 些 字 段 含义 的 文档 。 例 如, 在 线 文 档 会 告诉 你 , 'day 
后 面 的 302.29 是 白天 的 开尔文 温度 ， 而 不 是 摄氏 或 华氏 温度 。 

你 想 要 的 天 气 描 述 在 'main' 和 'description' 之 后 。 为 了 整齐 地 打印 出 来 ， 在 
quickWeather.py 中 添加 以 下 代码 。 


#! python3 
# quickWeather.py - Prints the weather for a location from the command line. 



































--SNnip-- 


# Load JSON data into a Python variable. 

weatherData = json.loads(response.text) 

# Print weather descriptions. 

w = weatherData['list'] 

print('Current weather in %s:' % (location)) 
print(w[0O]['weather'][0O]['main'], '-', w[0]['weather'][0]['description']) 
print() 

print('Tomorrow:') 

print(w[1]['weather'][0]['main'], '-', w[1]['weather'][0]['description']) 
print() 

print('Day after tomorrow:') 

print(w[2]['weather'][0]['main'], '-', w[2]['weather'][0]['description']) 








请 注意 ， 代 码 将 weatherDataflist] 保 存在 变量 w 中 ， 这 将 节省 一 些 打 字 时 间 @。 
可 以 用 w[0、w[ 和 w[2] 来 取得 今天 、 明 天 和 后 天 天 气 的 字典 。 这 些 字 典 都 有 
'weather 键 ， 其 中 包含 一 个 列表 值 。 你 感 兴 趣 的 是 第 一 个 列表 项 《一 个 奶 套 的 字典 ， 
包含 几 个 键 )， 下 标 是 0。 这 里 ， 我 们 打印 出 保存 在 main' 和 'description 键 中 的 值 ， 用 连 
字符 隔 开 。 

如 果 用 命令 行 参 数 quickWeatherpy San Francisco, CA 运行 这 个 程序 ， 输 出 看 起 
来 是 这 样 的 : 


Current weather in San Francisco, CA: 
Clear - sky is clear 





HH 







































































Tomorrow: 
Clouds - few clouds 


Day after tomorrow: 
Clear - sky is clear 


(天 气 是 我 襄 欢 住 在 旧金山 的 原因 之 一 !) 

















[eh 
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第 4 步 : 类 似 程序 的 想法 
访问 气象 数据 可 以 成 为 多 种 类 型 程序 的 基础 。 你 可 以 创建 类 似 程序 , 完成 以 下 任务 : 
。 收集 几 个 露营 地 点 或 远足 路 线 的 天 气 预 报 ， 看 看 哪 一 个 天 气 最 好 。 
。 如 果 需 要 将 植物 移 到 室内 ， 安 排 一 个 程序 定期 检查 天 和气 并 发 送 霜冻 警报 《第 
15 章 介绍 了 定时 调度 ， 第 16 章 介绍 了 如 何 发 送 电子 邮件 )。 
。 从 多 个 站 点 获得 气象 数据 ， 同 时 显示 ， 或 计算 并 显示 多 个 天 和 气 预报 的 平均 值 。 
























































14.6 “小结 


CSV 和 JSON 是 常见 的 纯 文 本 格式 ， 用 于 保存 数据 。 它 们 很 容易 被 程序 解析 ， 
同时 仍然 让 人 可 读 ， 所 以 它们 经 常 被 用 作 简 单 的 电子 表格 或 网 络 应 用 程序 的 数据 。 
csv 和 json 模块 大 大 简化 了 读 取 和 写 入 CSV 和 JSON 文件 的 过 程 。 

前 面 儿童 教 你 如 何 利用 Python 从 各 种 各 样 的 文件 格式 的 解析 信息 ,一 个 常见 的 
任务 是 接受 多 种 格式 的 数据 ， 解 析 它 ， 并 获得 需要 的 特定 信息 。 这 些 任务 往往 非常 
特别 ， 商 业 软 件 并 不 是 最 有 帮助 的 。 通 过 编写 自己 的 脚本 ， 可 以 让 计算 机 处 理 大 量 
以 这 些 格式 呈现 的 数据 。 

在 第 15 章 ， 你 将 从 数据 格式 中 挣脱 ， 学 习 如 何 让 程序 与 你 通信 ， 发 送 电 子 邮 
件 和 文本 消息 。 






























































































































































14.7 习题 














.哪些 功能 是 Excel 电子 表格 有 ， 而 CSV 电子 表格 没有 ? 

.向 csv.reader() 和 csv.writer(0) 传 入 什么 ， 来 创建 Reader 和 Writer 对 象 ? 
对 于 Reader 和 Writer 对 象 ，File 对 象 需要 以 什么 模式 打开 ? 

什么 方法 接受 一 个 列表 参数 ， 并 将 其 写 入 CSYV 文件 ? 

delimiter 和 lineterminator 关键 字 参 数 有 什么 用 ? 

什么 函数 接受 一 个 JSON 数据 的 字符 串 ， 并 返回 一 个 Python 数据 结构 ? 
什么 函数 接受 一 个 Python 数据 结构 ， 并 返回 一 个 JSON 数据 的 字符 串 ? 





























~ 小 上 wmDPP 一 

















14.8 ”实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 





Excel 到 CSV 的 转换 程序 
Excel 可 以 将 电子 表格 保存 为 CSV 文件 ， 只 要 点 几 下 鼠标 , 但 如 果 有 几 百 个 Excel 
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文件 要 转换 为 CSV， 就 需要 点 击 几 小 时 。 利 用 第 12 章 的 openpyxl 模块 ， 编 程 读 取 当 
前 工作 目录 中 的 所 有 Excel 文件 ， 并 输出 为 CSV 文件 。 

一 个 Excel 文件 可 能 包含 多 个 工作 表 ， 必 须 为 每 个 表 创建 一 个 CSV 文件 。CSV 
文件 的 文件 名 应 该 是 <Excel 文件 名 > <“ 表 标题 >.csv， 其 中 <Excel 文件 名 > 是 没有 扩 
展 名 的 Excel 文件 名 例如 'spam_data'"， 而 不 是 'spam_data.xlsx')，< 表 标题 > 是 
Worksheet 对 象 的 title 变量 中 的 字符 串 。 

该 程序 将 包含 许多 嵌 套 的 for 循环 。 该 程序 的 框架 看 起 来 像 这 样 : 
for excelFile in os.1listdir('.'): 

# Skip non-xlsx files, load the workbook object. 

for sheetName in wb.get sheet names(): 


# Loop through every sheet in the workbook. 
sheet = wbh.get sheet by name(sheetName) 










































































iT 











# Create the CSV filename from the Excel filename and sheet title. 
# Create the csv.writer object for this CSV file. 


# Loop through every row in the sheet. 
for rowNum in range(1, sheet.get highest row() + 1): 
rowData = [] # append each cell to this list 
# Loop through each cell in the row. 
for colNum in range(1, sheet.get highest column() + 1): 
# Append each cell's data to rowData. 


# Write the rowData list to the CSV file. 


csvFile.close() 


从 http://nostarch.com/automatestuff/ 下 载 ZIP 文件 excelSpreadsheets.zip， 将 这 些 
电子 表格 解压 缩 到 程序 所 在 的 目录 中 。 可 以 使 用 这 些 文件 来 测试 程序 。 
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ss 


保持 时 间 、 计 划 任 务 和 局 动 程序 














坐 在 电脑 前 运行 程序 是 不 错 的 , 但 在 你 没有 直接 监督 时 运 
行程 序 ， 也 是 有 用 的 。 计 算 机 的 时 钟 可 以 调度 程序 ， 在 特定 的 
时 间 和 日 期 运行 ， 或 定期 运行 。 例 如 ， 程 序 可 以 每 小 时 抓 取 一 
个 网 站 ， 检 查 变 更 ， 或 在 凌晨 4 点 你 睡觉 时 ， 执 行 CPU 密集 
型 任务 。Python 的 time 和 datetime 模块 提供 了 这 些 函 数 。 

利用 subprocess 和 threading 模块 , 你 也 可 以 编程 按时 启动 
其 他 程序 。 通 常 ， 编 程 最 快 的 方法 是 利用 其 他 人 已 经 写 好 的 应 




















































































































































































































15.1 time 模块 


计算 机 的 系统 时 钟 设置 为 特定 的 日 期 、 时 间 和 时 区 。 内 置 的 time 模块 让 Python 
程序 能 读 取 系统 时 钟 的 当前 时 间 。 在 time 模块 中 ，time.time0 和 time.sleep0 函 数 是 
最 有 用 的 模块 。 



























































15.1.1 time.time() 函 数 
Unix 纪元 是 编程 中 经 常 参考 的 时 间 : 1970 年 1 月 1 日 0 点 ， 即 协调 世界 时 
































UTC)。time.timeO 函 数 返 回 自 那 一 刻 以 来 的 秒 数 ， 是 一 个 浮 点 值 〈 回 想 一 下 ， 浮 
点 值 只 是 一 个 带 小 数 点 的 数 )。 这 个 数字 称 为 UNIX 纪元 时 间 戳 。 例 如 ， 在 交互 式 


























环境 中 输入 以 下 代码 : 


>>> import time 
>>> time.time() 
1425063955.068649 






































这 里 ,我 在 2015 年 2 月 27 日 ， 太 平 洋 标准 时 间 11:05 (或 7:05 PM UTC), 调用 
time.time0。 返 回 值 是 Unix 纪元 的 那 一 刻 与 time.time0 被 调用 的 那 一 刻 之 间 的 秒 数 。 









































注意 交互 式 环境 的 例子 得 到 的 日 期 和 时 间 ， 是 我 在 2015 年 2 月 写 这 一 章 的 时 间 。 除 
非 你 是 时 间 旅 行者 ， 否 则 得 到 的 日 期 和 时 间 会 不 同 。 























纪元 时 间 蕉 可 以 用 于 剖 





一 六 















































台 时 调用 time.tme0， 并 在 结束 时 再 次 调 





























import time 
© def calcProd() : 











# Calculate the product of the first 100,000 numbers. 


product = 1 

for i in range(1, 100000): 
product = product * i 

return product 


@ startTime = time.time() 
prod = calcProd () 
目 endTime = time.time() 


@ print('The result is %s digits long.' % (len(str(prod)))) 


© print('Took %s seconds to calculate.' % (endTime - 


析 代 码 ， 也 就 是 测量 一 段 代码 的 运行 时 间 。 如 果 在 代码 块 开 
， 就 可 以 用 第 二 个 时 间 戳 减 去 第 一 个 ， 得 到 
这 两 次 调用 之 间 经 过 的 时 间 。 例如 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 然 后 输入 以 下 程序 : 














startTime)) 


在 @ 行 , 我 们 定义 了 函数 calcProd(), 循环 遍历 1 至 99999 的 整数 ,返回 它们 的 
乘积 。 在 @ 行 ， 我 们 调用 time.time0， 将 结果 保存 在 startTime 中 。 调 用 calcProd0 
后 ， 我 们 再 次 调用 time.time()， 将 结果 保存 endTime 中 @。 最 后 我 们 打 Eh calcProd() 
返回 的 乘积 的 长 度 @， 以 及 运行 calcProd0 的 时 间 @。 


















































将 该 程序 保存 为 calcProd.py， 并 运行 它 。 输 出 看 








The result is 456569 digits long. 
Took 2.844162940979004 seconds to calculate. 
































TI 


起 来 像 这 检 








注意 另 一 种 剖析 代码 的 方法 是 利用 cProfile.run0O 函 数 。 与 简单 的 time.timeO 技 术 
相 比 ， 它 提供 了 详细 的 信息 。cProfile.run0 函 数 在 https://docs.python.org/3/library/ 


profile.html 有 解释 。 





15.1.2 time.sleep() 函 数 











如 果 需 要 让 程序 暂停 一 下 ， 就 调用 time.sleep(0 函 数 ， 并 传 入 希望 程序 暂停 的 秒 
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数 。 在 交互 式 环境 


>>> import time 
>>> for i in range(3): 


输入 以 下 代码 : 








0 print('Tick') 
© time.sleep(1) 
© print('Tock') 
[49 time.sleep(1) 

Tick 

Tock 

Tick 

Tock 

Tick 

Tock 


© >>> time.sleep(5) 


for 循环 将 打印 Tick@, 暂停 一 秒 钟 @， 
暂停 ， 如 此 继续 ， 直 到 Tick 和 Tock 分 别 被 





打印 Tock@, 暂停 一 秒 钟 @, 打印 Tick， 











打印 3 次 。 


time.sleepO 函 数 将 阻塞 (也 就 是 说 ， 它 不 会 返回 或 让 程序 执行 其 他 代码 )， 直 到 
传递 给 time.sleep0 的 秒 数 流逝 。 例 如 ， 如 果 输 入 time.sleep(5) @， 会 在 5 秒 后 才 看 





到 下 一 个 提示 符 (>>>)。 




















束 ， 



































>>> for i in range(30): 
time.sleep(1) 














请 注意 , 在 IDLE 中 按 Ctrl-C 不 会 中 断 time.sleepO 调 ) 
再 殷 出 KeyboardInterrupt 异常 。 要 绕 过 这 个 问题 ， 
来 暂停 30 秒 ， 而 是 使 用 for 循环 执行 30 次 time.sleep(1) 调 用 。 























] 。IDLE 会 等 待 到 暂停 结 
不 要 用 一 次 time.sleep(30) 调 














如 果 在 这 30 秒 内 的 某 个 时 候 按 Ctl-C， 应 该 马上 看 到 抛 出 KeyboardInterrupt 异常 。 


数字 四 舍 五 人 

















在 处 理 时 间 时 ， 你 会 经 常 遇 到 小 数 点 后 有 许多 数字 的 浮 点 值 。 为 了 让 这 些 值 更 
内 置 的 round0 函 数 将 它们 缩短 ， 该 函数 按照 指定 的 精度 
四 舍 五 入 到 一 个 浮 点 数 。 只 要 传 入 要 舍 入 的 数字 ， 再 加 上 可 选 的 第 二 个 参数 ， 指 明 























易于 处 理 ， 





可 以 用 Python 







































































需要 传 入 到 小 数 点 后 多 少 位 。 如 果 省 略 第 二 个 参数 ，round0 将 数字 四 售 五 入 到 最 接 











近 的 整数 。 在 交互 式 环境 


>>> import time 

>>> now = time.time() 
>>> now 
1425064108.017826 
>>> round(now, 2) 
1425064108 .02 

>>> round(now, 4) 
1425064108.0178 

>>> round(now) 
1425064108 
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输入 以 下 代码 : 


281 





























导入 time， 将 time.time0 保 存在 now 中 之 后 ， 我 们 调用 roundnow, 2)， 将 now 全 
入 到 小 数 点 后 两 位 数字 ，roundnow, 4) 舍 入 到 小 数 点 后 四 位 数字 ，round(now) 舍 入 到 
最 接近 的 整数 。 

















15.3 ”项 目 : 超级 秒表 


假设 要 记录 在 没有 自动 化 的 枯燥 任务 上 花 了 多 少时 间 。 你 没有 物理 秒表 ， 要 为 
笔记 本 或 智能 手机 找到 一 个 免费 的 秒表 应 用 ， 没 有 广告 ， 且 不 会 将 你 的 浏览 历史 发 
送 给 市 场 营销 人 员 ， 又 出 乎 意料 地 困难 (在 你 同意 的 许可 协议 中 ， 它 说 它 可 以 这 样 做 。 
你 确实 阅读 了 许可 协议 ， 不 是 吗 ? )。 你 可 以 自己 用 Python 写 一 个 简单 的 秒表 程序 。 

总 的 来 说 ， 你 的 程序 需要 完成 : 

。 记录 从 按 下 回 车 键 开 始 ， 每 次 按键 的 时 间 ， 每 次 按键 都 是 一 个 新 的 “ 单 圈 ”。 
。 打印 圈 数 、 总 时 间 和 单 圈 时 间 。 

这 意味 着 代码 将 需要 完成 以 下 任务 : 

。 在 程序 开始 时 ， 通 过 调用 time.timeO 得 到 当前 时 间 ， 将 它 保存 为 一 个 时 间 戳 。 

在 每 个 单 圈 开始 时 也 一 样 。 

。 记录 圈 数 ， 每 次 用 户 按 下 回 车 键 时 加 1。 

。 用 时 间 戳 相 减 ， 得 到 计算 流逝 的 时 间 。 

。 处 理 KeyboardInterrupt 异常 ， 这 样 用 户 可 以 按 Ctrl-C 退出 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 stopwatch.py。 
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第 1 步 : 设置 程序 来 记录 时 间 
秒表 程序 需要 用 到 当前 时 间 ， 所 以 要 导入 的 time 模块 。 程 序 在 调用 input0 之 前 ， 
也 应 该 向 用 户 打 印 一 些 简 短 的 说 明 ， 这 样 计 时 器 可 以 在 用 户 按 下 回 车 键 后 开始 。 然 
后 ， 代 码 将 开始 记录 单 圈 时 间 。 在 文件 编辑 器 中 输入 以 下 代码 ， 为 其 余 的 代码 编写 
TODO 注释 ， 作 为 占 位 符 : 

















可 

























































































#! python3 
# stopwatch.py - A simple stopwatch program. 


import time 
# Display the program's instructions. 


print('Press ENTER to begin. Afterwards, press ENTER to "click" the stopwatch. 
Press Ctrl-C to quit.') 


input() # press Enter to begin 
print('Started.') 

startTime = time.time() # get the first lap's start time 
lastTime = startTime 

lapNum = 1 


# TODO: Start tracking the lap times. 
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既然 我 们 已 经 编码 显示 了 用 户 说 明 ， 那 就 开始 第 一 圈 ， 记 下 时 间 ， 并 将 圈 数 设 为 1。 














第 2 步 : 记录 并 打印 单 圈 时 间 

现在 ， 让 我 们 编码 开始 每 一 个 新 的 单 圈 ， 计 算 前 一 圈 花 了 多 少时 间 ， 并 计算 自 
启动 秒表 后 经 过 的 总 时 间 。 我 们 将 显示 的 单 圈 时 间 和 上 总 时 间 ， 为 每 个 新 的 单 圈 增加 
圈 计 数 。 将 下 面 的 代码 添加 到 程序 中 : 


#! python3 
# stopwatch.py - A simple stopwatch program. 















































import time 


--SNip-- 


# Start tracking the lap times. 
© try: 
© while True: 
input() 
© lapTime = round(time.time() - lastTime, 2) 
49 totalTime = round(time.time() - startTime, 2) 
© print('Lap #%s: %s (%s)' % (lapNum, totalTime, lapTime), end="'') 


lapNum += 1 
lastTime = time.time() # reset the last lap time 
© except KeyboardInterrupt: 
# Handle the Ctrl-C exception to keep its error message from displaying. 
print('\nDone.') 


如 果 用 户 按 CtrlC 停止 秒表 ,KeyboardInterrupt 异常 将 抛 出 , 如 果 程 序 的 执行 不 是 
一 个 try 语句 ， 就 会 朋 溃 。 为 了 防止 朋 溃 ， 我 们 将 这 部 分 程序 包装 在 一 个 try 语句 中 @。 
我 们 将 在 except 子 句 中 处 理 异常 @， 所 以 当 Cul-C 按 下 并 引发 异常 时 ， 程 序 执行 转向 
except 子 句 ， 打 印 Done， 而 不 是 KeyboardInterrupt 错误 消息 。 在 此 之 前 ， 执 行 处 于 一 
个 无 限 循环 中 @， 调 用 inputO 并 等 待 ， 直 到 用 户 按 下 回 车 键 结束 一 圈 。 当 一 圈 结 束 时 ， 
我 们 用 当前 时 间 time.time0 减 去 该 圈 开 始 的 时 间 lastTime， 计 算 该 圈 花 了 多 少时 间 @。 
我 们 用 当前 时 间 减 去 秒表 最 开始 启动 的 时 间 startTime， 计 算 总 共 流 逝 的 时 间 @。 
由 于 这 些 时 间 计 算 的 结果 在 小 数 点 后 有 许多 位 (如 4.766272783279419)， 所 以 
我 们 在 @ 和 @ 行 用 round0 函 数 ， 将 浮 点 值 四 舍 五 入 到 小 数 点 后 两 位 。 
在 @ 行 ， 我 们 打印 出 圈 数 ， 消 耗 的 总 时 间 和 单 圈 时 间 。 由 于 用 户 为 input0 调 用 
9 所 以 我 们 向 printO 函 数 传 入 end="， 避 人 免 
输出 重复 空 行 。 打 印 单 圈 信息 后 ， 我 们 将 计数 器 lapNum 加 1， 将 lastTime 设置 为 
当前 时 间 = 圈 的 开始 时 间 )， 从 而 为 下 一 圈 做 好 准备 。 
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第 3 步 : 类 似 程序 的 想法 

时 间 追 踪 为 程序 打开 了 几 种 可 能 性 。 虽 然 可 以 下 载 应 用 程序 来 做 其 中 一 些 事 
情 ， 但 自己 编程 的 好 处 是 它们 是 免费 的 ， 而 且 不 会 充斥 着 广告 和 无 用 的 功能 。 可 以 
编写 类 似 的 程序 来 完成 以 下 任务 : 
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。 创建 一 个 简单 的 工时 表 应 用 程序 ， 当 输入 一 个 人 的 名 字 时 ， 用 当前 的 时 间 记录 

















下 他 们 进入 或 离开 的 时 间 。 














。 为 你 的 程序 添加 一 个 功能 ， 显 示 自 一 项 处 理 开始 以 来 的 时 间 ， 诸 如 利用 requests 











模块 进行 的 下 载 (参见 第 11 章 )。 

















。 间 葡 性 地 检查 程序 已 经 运行 了 多 久 ,， 并 为 用 户 提 供 了 一 个 机 会 取消 耗 时 太 长 








的 任务 。 


15.4 ”datetime 模块 
time 模块 用 于 取得 Unix 纪元 时 间 惟 ， 并 加 以 处 到 
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E。 但 是 ， 如 果 以 更 方便 的 格 


式 显 示 日 期 ， 或 对 日 期 进行 算术 运算 (例如 ， 搞 清楚 205 天 前 是 什么 日 期 或 123 























天 后 是 什么 日 期 )， 就 应 该 使 用 datetime 模块 。 

















datetime 模块 有 自己 的 datetime 数据 类 型 。datetime 值 表示 一 个 特定 的 时 刻 。 在 交 














互 式 环 境 中 输入 以 下 代码: 


>>> import datetime 
© >>> datetime.datetime.now() 
@ datetime.datetime(2015, 2, 27, 11, 10, 49, 55, 53) 
© >>> dt = datetime.datetime(2015, 10, 21, 16, 29,0) 
@ >>> dt.year, dt.month, dt.day 

(2015, 10, 21) 
© >>> dt.hour, dt.minute, dt.second 

(16, 29, 0) 

















间 ， 根 据 你 的 计算 机 的 时 钟 。 这 个 对 象 包含 当前 时 刻 的 年 、 月 、 日 、 时 、 
微 秒 。 也 可 以 利用 datetime.datetimeO 函 数目 ， 向 它 传 入 代表 年 、 月 、 日 、 
































调用 datetime.datetime.nowO@ 返 回 一 个 datetime 对 象 @， 表 示 当 前 的 














日 期 和 时 
分 、 秒 和 


时 、 分 、 





秒 的 整数 , 得 到 特定 时 刻 的 datetime 对 象 。 这 些 整 数 将 保存 在 datetime 对 象 的 year、 





month、day@ 、hour、minute 和 second@ 属 性 中 。 





Unix 纪元 时 间 惟 可 以 通过 datetime.datetime.fromtimestamp()， 转 换 为 datetime 
对 象 。datetime 对 象 的 日 期 和 时 间 将 根据 本 地 时 区 转换 。 在 交互 式 环 境 中 输入 以 下 



































代码 : 


>>> datetime.datetime.fromtimestamp(1000000) 
datetime.datetime(1970, 1, 12, 5, 46, 40) 

>>> datetime.datetime.fromtimestamp (time.time()) 
datetime.datetime(2015, 2, 27, 11, 13, 0, 604980) 























调用 datetime.datetime.fromtimestamp() 并 传 入 1000000， 返 回 一 个 datetime 对 


象 ， 表 示 Unix 纪元 后 1000000 秒 的 时 刻 。 传 入 time.time0， 即 当前 时 刻 的 Unix 纪 
元 时 间 戳 ， 则 返回 当前 时 刻 的 datetime 对 象 。 因 此 ， 表 达 式 datetime.datetime.now() 











和 datetime.datetime.fromtimestamp(time.timeO) 做 的 事情 相同 ， 它 们 都 返回 
的 datetime 对 象 。 
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当前 时 刻 





注意 这 些 例子 是 在 一 台 设 置 了 太平 洋 标准 时 间 的 计算 机 上 输入 的 。 如 果 你 在 另 一 个 
时 区 ， 结 果 会 有 所 不 同 。 


datetime 对 象 可 以 用 比较 操作 符 进行 比较 , 弄 清楚 谁 在 前 面 。 后 面 的 datetime 对 象 
是 “更 大 ”的 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


© >>> halloween2015 = datetime.datetime(2015，10，31，0，0，0) 
@ >>> newyears2016 = datetime.datetime(2016, 1, 1, 0, 0, 0) 
>>> oct31 2015 = datetime.datetime(2015, 10, 31, 0, 0, 0) 
© >>> halloween2015 == oct31 2015 
True 
@ >>> halloween2015 > newyears2016 
False 
© >>> newyears2016 > halloween2015 
True 
>>> newyears2016 != oct31 2015 
True 


为 2015 年 10 月 31 日 的 第 一 个 时 刻 〈 午 夜 ) 创建 一 个 datetime 对 象 ， 将 它 保 
存在 halloween2015 中 @。 为 2016 年 1 月 1 日 的 第 一 个 时 刻 创建 一 个 datetime 对 象 ， 
将 它 保存 在 newyears2016 中 四 。 然 后， 为 2015 年 10 月 31 日 的 午夜 创建 男 一 个 对 象 ， 
将 它 保存 在 oct31_2015 中 。 比 较 halloween2015 和 oct31_2015， 它 们 是 相等 的 @。 比 
较 newyears2016 和 halloween2015，newyears2016 大 于 (了 晚 于 ) halloween2015 @@， 























































































































15.4.1 timedelta 数据 类 型 
datetime 模块 还 提供 了 timedelta 数据 类 型 , 它 表示 一 段 时 间 , 而 不 是 一 个 时 刻 。 
在 交互 式 环境 中 输入 以 下 代码 : 
>>> delta = datetime.timedelta(days=11, hours=10, minutes=9, seconds=8) 
>>> delta.days, delta.seconds, delta.microseconds 
(11, 36548, 0) 
>>> delta.total seconds () 
986948 .0 


>>> str(delta) 
'11 daySs，10:09:08 


要 创建 tmedelta 对 象 ， 就 用 datetime.timedelta0 函 数 。datetime.timedelta0) 函 数 
接受 关键 字 参 数 weeks、days、hours、minutes、seconds、milliseconds 和 microseconds 。 
没有 month 和 year 关键 字 参 数 ， 因 为 “月 ”和 “年 ”是 可 变 的 时 间 ， 依 赖 于 特定 月 
份 或 年 份 。timedelta 对 象 拥 有 的 总 时 间 以 天 、 秒 、 微 秒 来 表示 。 这 些 数字 分 别 保存 
在 days、seconds 和 microseconds 属性 中 。total_seconds0 方 法 返回 只 以 秒表 示 的 时 
间 。 将 一 个 timedelta 对 象 传 入 str())， 将 返回 格式 良好 的 、 人 类 可 读 的 字符 串 表 示 。 

在 这 个 例子 中 ， 我 们 将 关键 字 参 数 传 入 datetime.delta0， 指 定 11 天 、10 小 时 、 
9 分 和 8 秒 的 时 间 ， 将 返回 的 timedelta 对 象 保存 在 delta 中 @。 该 timedelta 对 象 的 
days 属性 为 11，seconds 属性 为 36548 (10 小 时 、9 分 钟 、8 秒 ， 以 秒表 示 ) @。 调 
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total_seconds0O 告 诉 我 们 ，11 天 、10 小 时 、9 分 和 8 秒 是 986948 秒 。 最 后 ， 将 这 个 
timedelta 对 象 传 入 str0)， 返 回 一 个 字符 串 ， 明 确 解 释 了 这 段 时 间 。 

算术 运算 符 可 以 用 于 对 datetime 值 进 行 日 期 运算 。 例如， 要 计算 今天 之 后 1000 
天 的 日 期 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> dt = datetime.datetime.now() 

>>> dt 

datetime.datetime(2015, 2, 27, 18, 38, 50，636181) 
>>> thousandDays = datetime.timedelta(days=1000) 
>>> dt + thousandDays 

datetime.datetime(2017, 11, 23, 18, 38, 50,636181) 


首先 ， 生 成 表示 当前 时 刻 的 datetime 对 象 ， 保 存在 dt 中 。 然 后 生成 一 个 timedelta 
对 象 ， 表 示 1000 天 ， 保 存在 thousandDays 中 。dt 与 thousandDays 相 加 ， 得 到 一 个 
datetime 对 象 ， 表 示 现 在 之 后 的 1000 天 。Python 将 完成 日 期 运算 ， 弄 清楚 2015 年 
2 月 27 日 之 后 的 1000 天 , 将 是 2017 年 11 月 23 日 。 这 很 有 用 ， 因 为 如 果 要 从 一 个 
给 定 的 日 期 计算 1000 天 之 后 ， 需 要 记 住 每 个 月 有 多 少 天 ， 国 年 的 因素 和 其 他 环 手 
的 细节 。datetime 模块 为 你 处 理 所 有 这 些 问题 。 

利用 + 和 -运算 符 ，timedelta 对 象 与 datetime 对 象 或 其 他 timedelta 对 象 相 加 或 相 
减 。 利 用 * 和 /运算 符 ，timedelta 对 象 可 以 乘 以 或 除 以 整数 或 浮 点 数 。 在 交互 式 环境 
中 输入 以 下 代码 : 


>>> oct21st = datetime.datetime(2015, 10, 21, 16, 29, 0) 
>>> aboutThirtyYears = datetime.timedelta(days=365 * 30) 
>>> oct21st 

datetime.datetime(2015, 10, 21, 16, 29) 

>>> oct21st - aboutThirtyYears 

datetime.datetime(1985, 10, 28, 16, 29) 

>>> oct21st - (2 * aboutThirtyYears) 
datetime.datetime(1955, 11, 5, 16, 29) 


这 里 ， 我 们 生成 了 一 个 DateTime 对 象 ， 表示 2015 年 10 月 21 日 9， 以 及 一 个 
timedelta 对 象 ， 表 示 大 约 30 年 的 时 间 〈 我 们 假设 每 年 为 365 天 ) @。 从 oct21st 中 
减 去 aboutThirtyYears， 我 们 就 得 到 一 个 datetime 对 象 ， 表 示 2015 年 10 月 21 日 前 30 
年 的 一 天 。 从 oct21st 中 减 去 2* aboutThirtyYears， 得 到 一 个 datetime 对 象 ， 表 示 2015 
年 10 月 21 日 之 前 60 年 的 一 天 。 
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15.4.2 ”暂停 直至 特定 日 期 

time.sleep() 方 法 可 以 暂停 程序 若干 秒 。 利 用 一 个 while 循环 ， 可 以 让 程序 暂停 ， 
直到 一 个 特定 的 日 期 。 例 如 ， 下 面 的 代码 会 继续 循环 ， 直 到 2016 年 万 圣 节 ; 
import datetime 
import time 
halloween2016 = datetime.datetime(2016, 10, 31, 0, 0, 0) 


while datetime.datetime.now() < halloween2016: 
time.sleep(1) 
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time.sleep(1) 调 用 将 暂停 你 的 Python 程序 ， 这 样 计算 机 不 会 浪费 CPU 处 理 周 期 ， 
一 遍 又 一 遍地 检查 时 间 。 相反 ,while 循环 只 是 每 秒 检查 一 次 , 在 2016 年 万 圣 节 (或 
你 编程 让 它 停止 的 时 间 ) 后 继续 执行 后 面 的 程序 。 












































15.4.3 将 datetime 对 象 转换 为 字符 串 
Unix 纪元 时 间 惟 和 datetime 对 象 对 人 类 来 说 都 不 是 很 友好 可 读 。 利 用 strftime0 方 












































法 ， 可 以 将 datetime 对 象 显示 为 字符 串 。(strftime0O 函 数 名 中 的 表示 格式 ，format )。 














该 的 strftime(0 方 法 使 用 的 指令 类 似 于 Python 的 字符 串 格式 化 。 表 15-1 列 出 了 完 
整 的 strftimeO 指 令 。 


表 15-1 strftime() 指 令 


strftime 指令 


含义 





WY 
Wy 
Ym 
%B 
%b 
%d 
%j 
Pw 
%A 
Ya 
%H 
I 
%M 
%S 
%p 
WW 


向 strftimeO 传 入 一 个 定制 的 格式 字符 串 ， 其 中 包含 格式 化 指定 (以 及 任何 需要 
的 斜 线 、 冒号 等 ), strftime0O 将 返 
在 交互 式 环境 中 输入 以 下 代码 : 








>>> oct21st 
>>> oct21st. 
'2015/10/21 
>>> oct21st. 
'04:29 PM' 
>>> oct21st. 
"October of 








带 世 纪 的 年 份 ， 例 如 2014' 

不 带 世纪 的 年 份 ，'00' 至 '99' (1970 至 2069) 
数字 表示 的 月 份 , '01' 至 '12' 

完整 的 月 份 ， 例 如 'November' 

简写 的 月 份 ， 例 如 'Nov' 

中 的 第 几 天 ，'01' 至 '31' 

一 年 中 的 第 几 天 ，'001' 至 '366' 

一 周 中 的 第 几 天 ，'0'( 周 日 ) 至 '6'( 周 六 ) 
完整 的 周 几 ， 例 如 "Monday 

简写 的 周 几 ， 例 如 "Mon' 

小 时 24 小 时 时 钟 )，'00' 至 '23 

小 时 (12 小 时 时 钟 )，'01' 至 '12' 

分 ，'00' 至 '59 

秒 ，'00' 至 '59 

'AM' 或 PM 

就 是 '%' 字 符 
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一 个 格式 化 的 字符 串 , 表示 datetime 对 象 的 信息 。 














= datetime.datetime(2015，10，21，16，29，0) 
strftime('%Y/%m/%d %H:%M:%S') 

16:29:00， 

strftime('%I:%M %p') 


strftime("%B of '%y") 
115" 














这 里 ， 


我 们 有 一 个 datetime 对 象 ， 表 示 2015 年 10 月 21 日 下 午 4 点 29 分 ， 保 
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存在 oct21st 中 。 癌 strftimeO 传 入 定制 的 格式 字符 串 '%Y/%m/%d %H:%M:%S， 返 回 
一 个 字符 串 ， 包 含 以 斜 杠 分 隔 的 2015、10 和 21， 以 冒号 分 隔 的 16、29 和 00。 传 
入 '%I:%M% p' 则 返回 '04:29 PM'， 传 入 "%B of '%y" 则 返回 "October of '15"。 请 注意 ， 
strftime() 不 是 以 datetime.datetime 开始 。 






































15.4.4 ”将 字符 串 转 换 成 datetime 对 象 








如 果 有 一 个 字符 串 的 日 期 信息 ， 如 '2015/10/21 16:29:00' 或 ' October 21, 2015'， 需 
要 将 它 转换 为 datetime 对 象 ， 就 用 datetime.datetime.strftimeO 函 数 。strptimeO 函 数 与 
strftime() 方 法 相反 。 定 制 的 格式 字符 串 使 用 相同 的 指令 ， 像 strftime() 一 样 。 必 须 将 
格式 字符 串 传 入 strptimeO)，， 这 样 它 就 知道 如 何 解析 和 理解 日 期 字符 串 (strptime0) 
函数 名 中 p 表示 解析 ，parse)。 

在 交互 式 环境 中 输入 以 下 代码 ; 


>>> datetime.datetime.strptime('October 21, 2015', '%B %d, %Y') 
datetime.datetime(2015, 10, 21, 0, 0) 































































































>>> datetime.datetime.strptime('2015/10/21 16:29:00', '%Y/%m/%d %H:%M:%S') 
datetime.datetime(2015, 10, 21, 16, 29) 
>>> datetime.datetime.strptime("October of '15", "%B of '%y") 


datetime.datetime(2015, 10, 1, 0, 0) 
>>> datetime.datetime.strptime("November of '63", "%B of '%y") 
datetime.datetime(2063, 11, 1, 0, 0) 


要 从 字符 串 'October 21, 2015' 取 得 一 个 datetime 对 象 ， 将 'October 21, 2015' 作 为 
第 一 个 参数 传递 给 stptime0， 并 将 对 应 于 'October 21, 2015' 的 定制 格式 字符 串 作 为 
第 二 个 参数 @。 带 有 日 期 信息 的 字符 串 必须 准确 匹配 定制 的 格式 字符 串 ， 否则 Python 
将 抛 出 ValueError 异常 。 
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15.5 ”回顾 Python 的 时 间 耳 数 














在 Python 中 ,日 期 和 时 间 可 能 涉及 好 几 种 不 同 的 数据 类 型 和 函数 。 下 面 回顾 了 
表示 时 间 的 3 种 不 同类 型 的 值 : 

。 Unix 纪元 时 间 玲 (time 模块 中 使 用 ) 是 一 个 浮 点 值 或 整 型 值 ， 表示 自 1970 年 
1 月 1 日 午夜 0 点 (UTC) 以 来 的 秒 数 。 

。 datetime 对 象 (属于 datetime 模块 ) 包含 一 些 整 型 值 , 保存 在 year、month、 day、 
hour、minute 和 second 等 属性 中 。 

。 timedelta 对 象 ( 属 于 datetime 模块 ) 表示 的 一 段 时 间 ， 而 不 是 一 个 特定 的 时 刻 。 
下 面 回 顾 了 时 间 函 数 及 其 参数 和 返回 值 : 

。 timetime0 函 数 返回 一 个 浮 点 值 ， 表 示 当 前 时 刻 的 Unix 纪元 时 间 惟 。 

。 time.sleep(seconds) 函 数 让 程序 暂停 seconds 参数 指定 的 秒 数 。 

e datetime.datetime(year, month, day hour minute, second) 函 数 返 回 参数 指定 的 时 
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刻 的 datetime 对 象 。 如 果 没 有 提供 hour、minute 或 second 参数 , 它们 默认 为 0。 
。 datetime.datetime.nowO 函 数 返 回 当前 时 刻 的 datetime 对 象 。 
。 datetime.datetime.fromtimestamp(epoch) 函 数 返回 epoch 时 间 惟 参数 表示 的 时 刻 


的 datetime 对 象 。 























e datetime.timedelta(weeks, days, hours, minutes, seconds, milliseconds, microseconds) 函 
数 返回 一 个 表示 一 段 时 间 的 timedelta 对 象 。 该 函数 的 关键 字 参 数 都 是 可 选 的 ， 
不 包括 month 或 year。 

















e total _seconds0) 方 法 用 








于 timedelta 对 象 ， 返 回 timedelta 对 象 表示 的 秒 数 。 














。 strftime(format) 方 法 返回 一 个 字符 串 ， 用 format 字符 串 中 的 定制 格式 来 表示 











datetime 对 象 表示 的 时 间 。 详 细 格式 参见 表 15-1。 
e datetime.datetime.strptime(time_string, formab 函 数 返 回 一 个 datetime 对 象 , 它 的 
时 刻 由 time_string 指定 ， 利 用 format 字符 串 参 数 来 解析 。 详 细 格式 参见 表 15-1。 














15.6 ”多 线程 
































为 了 引入 多 线程 的 概念 ， 让 我 们 来 看 一 个 例子 。 假 设 你 想 安排 一 些 代 码 ， 在 一 











段 延迟 后 或 在 特定 时 间 运 行 





import time, datetime 


。 可 以 在 程序 启动 时 添加 如 下 代码 : 














startTime = datetime.datetime(2029, 10, 31, 0, 0, 0) 
while datetime.datetime.now() < startTime: 


time.sleep(1) 


print('Program now starting 
--SNip-- 


这 段 代 码 指定 2029 年 





on Halloween 2029') 











10 月 31 日 作为 开始 时 间 ， 不 断 调 


出 








用 time.sleep(1)， 直 到 开 




















台 时 间 。 在 等 待 tme.sleep0O) 的 循环 调用 完成 时 ， 程 序 不 能 做 任何 事情 ， 它 只 是 坐 在 那 



































里 ， 直 到 2029 年 万 圣 节 。 这 是 因为 Python 程序 在 默认 情况 下 ， 只 有 一 个 执行 线程 。 






















































































要 理解 什么 是 执行 线程 ， 就 要 回忆 第 2 章 关 于 控制 流 的 讨论 ， 当 时 你 想象 程序 
的 执行 就 像 把 手指 放 在 一 行 代 码 上 ， 然 后 移动 到 下 一 行 ， 或 是 流 控 种 














| 语 句 让 它 去 的 














任何 地 方 。 单 线程 程序 只 有 一 个 “手指 ”。 但 多 线程 的 程序 有 多 个 “手指 ”。 每 个 “ 手 




















由 ”仍然 移动 到 控制 流 语句 定义 的 下 一 行 代码 ， 但 这 些 “ 手 指 ” 可 以 在 程序 的 不 同 地 
方 ， 同 时 执行 不 同 的 代码 行 〈 到 目前 为 止 ， 本 书 所 有 的 程序 一 直 是 单线 程 的 )。 





不 必 让 所 有 的 代码 等 





























待 ， 直 到 time.sleep0 函数 完成 ， 你 可 以 使 用 Python 的 

















threading 模块 ， 在 单独 的 线程 中 执行 延迟 或 安排 的 代码 。 这 个 单独 的 线程 将 因为 
time.sleepO 调 用 而 暂停。 同时 ， 程 序 可 以 在 原来 的 线程 中 做 其 他 工作 。 
要 得 到 单独 的 线程 , 首先 要 调用 threading.Thread0 函 数 , 生成 一 个 Thread 对 象 。 



























































在 新 的 文件 中 输入 以 下 代码 ， 并 保存 为 threadDemo.py: 
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import threading, time 
print('Start of program.') 


© def takeANap(): 
time.sleep(5) 
print('Wake up!') 


thread0bj = threading.Thread(target=takeANap) 
threadobj.start() 


@e@e 


print('End of program.') 





























我 们 调用 threading.Thread0， 并 传 入 关键 字 参 数 target=takeANap@。 


























在 @ 行 , 我 们 定义 了 一 个 函数 , 希望 用 于 新 线程 中 。 为 了 创建 一 个 Thread 对 象 ， 


这 意味 着 我 们 





要 在 新 线程 中 调用 的 函数 是 takeANap0。 请 注意 ， 关 键 字 参 数 是 target=takeANap， 
































而 不 是 target=takeANap0。 这 是 因为 你 想 将 takeANapO 函 数 本 身 作 为 参数 ， 而 不 是 

















调用 takeANapO0， 并 传 入 它 的 返回 值 。 

















我 们 将 threading.ThreadO 创 建 的 Thread 对 象 保存 在 threadObj 中 ， 然 后 调用 


























threadObj.start)@， 创 建新 的 线程 ， 并 开始 在 新 线程 中 执行 目标 函数 。 如 果 运 行 该 














程序 ， 输 出 将 像 这 样 : 


Start of program. 
End of program. 
Wake up! 














这 可 能 有 点 令 人 困惑 。 如 果 print(End of program.) 是 程序 的 最 后 一 行 ， 你 可 能 
会 认为 ， 它 应 该 是 最 后 打印 的 内 容 。Wake up! 在 它 后 面 是 因为 ， 当 threadObj.startO 




































































被 调用 时 , threadObj 的 目标 函数 运行 在 一 个 新 的 执行 线程 中 。 将 它 看 成 是 第 二 根 “ 手 






































指 ” 出 现在 takeANap0 函 数 开始 处 。 主 线程 继续 print(End of program. 





























)。 





























同时 ， 新 线 


程 已 执行 了 time.sleep(5) 调 用 ,暂停 5 秒 钟 。 之 后 它 从 5 秒 钟 小 睡 中 醒 来 , 打印 了 "Wake 

















数 返回 。 按 时 间 顺 序 ，"Wake up! 是 程序 最 


| 





up!'， 然 后 从 takeANap0O 函 





















































通常 ， 程 序 在 文件 中 最 后 一 行 代码 执行 后 终止 (或 调用 s 











后 的 
ys.exitO ) 。 但 





印 的 内 容 。 

















threadDemo.py 有 两 个 线程 。 第 一 个 是 最 初 的 线程 ,从 程序 开始 处 开始 , 在 print(End 
of program.) 后 结束 。 第 二 个 线程 是 调用 threadObj.start0 时 创建 的 ， 始 于 takeANap() 




















函数 的 开始 处 ， 在 takeANap0 返 回 后 结束 。 























在 程序 的 所 有 线程 终止 之 前 ，Python 程序 不 会 终止 。 在 运行 threadDemo.py 时 ， 














即使 最 初 的 线程 已 经 终止 ， 第 二 个 线程 仍然 执行 time.sleep(5) 调 用 。 





15.6.1 向 线程 的 目标 函数 传递 参数 








如 果 想 在 新 线程 中 运行 的 目标 函数 有 参数 ， 可 以 将 目标 函数 的 参数 传 入 
threading.Thread()。 例 如 ， 假 设想 在 自己 的 线程 中 运行 以 下 print0 调 用 : 
































>>> print('Cats', 'Dogs', 'Frogs', sep=' & ') 
Cats & Dogs & Frogs 
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该 print0 调 用 有 3 个 常规 参数 : Cats、 'Dogs' 和 'Frogs'， 以 及 一 个 关键 字 参 数 : sep= 
'&&'。 和 常规 参数 可 以 作为 一 个 列表 ， 传 递 给 threading.Thread0 中 的 args 关键 字 参 数 。 关 
键 字 参数 可 以 作为 一 个 字典 ， 传 递 给 threading.Thread0 中 的 kwargs 关键 字 参 数 。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import threading 
>>> thread0bj = threading.Thread(target=print, args=['Cats', 'Dogs', 'Frogs'], 
kwargs={'sep': ' & '}) 
































>>> 上 threadobj.start() 
Cats & Dogs & Frogs 


为 了 确保 参数 'Cats'、'Dogs' 和 'Frogs' 传 递 给 新 线程 中 的 print0, 我 们 将 args=['Cats，， 
'Dogs', 'Frogs'] 传 入 threading.Thread0 。 为 了 确保 关键 字 参 数 sep=' & ' 传 递 给 新 线程 
中 的 printD)， 我 们 将 kwargs={'sep': ' 公 '} 传 入 threading.Thread()。 

threadObj.startO 调 用 将 创建 一 个 新 线程 来 调用 printO 函 数 ， 它 会 传 入 'Cats'、 
'Dogs' 和 'Frogs' 作 为 参数 ， 以 及 ' & ' 作 为 sep 关键 字 参 数 。 

下 面 创建 新 线程 调用 print0 的 方法 是 不 正确 的 : 
threadobj = threading.Thread(target=print('Cats', 'Dogs', 'Frogs', sep=' & ')) 

这 行 代码 最 终 会 调用 print0 函 数 ， 将 它 的 返回 值 (print0 的 返回 值 总 是 无 ) 作为 
target 关键 字 参 数 。 它 没有 传递 print0 函 数 本 身 。 如 果 要 向 新 线程 中 的 函数 传递 参数 ， 
就 使 用 threading.Thread0 函 数 的 args 和 kwargs 关键 字 人 参数。 


























































































































15.6.2 ”并 发 问题 


Ns = 
壮 已 


15.7 


可 以 轻松 地 创建 多 个 新 线程 ， 让 它们 同时 运行 。 但 多 线程 也 可 能 会 导致 所 谓 的 
并 发 问题 。 如 果 这 些 线程 同时 读 写 变量 ， 导 致 互相 干扰 ， 就 会 发 生 并 发 问题 。 并 发 
问题 可 能 很 难 一 致 地 重 现 ， 所 以 难以 调试 。 

多 线程 编程 本 身 就 是 一 个 广泛 的 主题 ， 超 出 了 本 书 的 范围 。 必 须 记 住 的 是 : 为 了 和 避 
免 并 发 问题 ， 绝 不 让 多 个 线程 读 取 或 写 入 相同 的 变量 。 当 创建 一 个 新 的 Thread 对 象 时 ， 
要 确保 其 目标 函数 只 使 用 该 函数 中 的 局 部 变量 。 这 将 避免 程序 中 难以 调试 的 并 发 问题 。 






























































































































































在 http://nostarch.com/automatestuff/， 有 关于 多 线程 编程 的 初学 者 教程 。 





日 : 多 线程 XKCD 下 载 程 序 


在 第 11 章 ， 你 编写 了 一 个 程序 ， 从 XKCD 网 站 下 载 所 有 的 XKCD 漫画 。 这 是 
一 个 单线 程 程序 : 它 一 次 下 载 一 幅 漫 画 。 程 序 运行 的 大 部 分 时 间 ， 都 用 于 建立 网 络 
连接 来 开始 下 载 ， 以 及 将 下 载 的 图 像 写 入 硬盘 。 如 果 你 有 宽带 因特网 连接 ， 单 线程 
程序 并 没有 充分 利用 可 用 的 带宽 。 
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多 线程 程序 中 有 一 些 线程 在 下 载 漫 画 ， 同 时 另 一些 线 程 在 建立 连接 ， 或 将 漫画 图 















































像 文件 写 入 硬盘 。 它 更 有 效 地 使 用 Internet 连接 ， 更 迅速 地 下 载 这 些 漫 画 。 打 开 一 个 新 





























的 文件 编辑 器 窗口 , 并 保存 为 multidownloadXkcd.py。 你 将 修改 这 个 程序 , 添加 多 线程 。 








经 过 全 面 修改 的 源 代码 可 从 http://nostarch.com/automatestuff/ 下 载 。 


第 1 步 : 修改 程序 以 使 用 函数 




















该 程序 大 部 分 是 来 自 第 11 章 的 相同 下 载 代码 ， 所 以 我 会 跳 过 Requests 和 
BeautifulSoup 代码 的 解释 。 需 要 完成 的 主要 变更 是 导入 threading 模块 ， 并 定义 














downloadXkcd0 函 数 ， 该 函数 接受 开始 和 结束 的 漫画 编号 作为 参数 。 




















例如 ， 调 用 downloadXkcd(140，280) 将 循环 执行 下 载 代码 ， 下 载 漫 画 http:/xkcd. 
com/140、http://xkcd.com/141、http://xkcd.conmy142 等 ， 直 到 http://xkcd.com/279。 你 


















































创建 的 每 个 线程 都 会 调用 downloadXkcd()， 并 传 入 不 同 范 围 的 漫画 进行 下 载 。 

















将 下 面 的 代码 添加 到 multidownloadXkcd.py 程序 中 : 


#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 





import requests, os, bs4, threading 
© os.makedirs('xkcd', exist ok=True) # store comics in ./xkcd 


@ def downloadXkcd(startComic, endComic): 


© for urlNumber in range(startComic, endComic): 

# Download the page. 

print('Downloading page http://xkcd.com/%s...' % (urlNumber)) 
49 res = requests.get('http://xkcd.com/%s' % (urlNumber)) 


res.raise for status() 
© soup = bs4.BeautifulSoup(res.text) 


# Find the URL of the comic image. 
【69 comicElem = soup.select('#comic img') 
if comicElem == []: 
print('Could not find comic image.') 
else: 
@ comicUrl = ComicELem[0].get('src') 
# Download the image. 
print('Downloading image %s...' % (comicUrl)) 
© res = requests.get(comicUr1) 
res.raise for status() 


# Save the image to ./xkcd. 


imageFile = open(os.path.join('xkcd', os.path.basename (comicUrl1)), 'wb') 


for chunk in res.iter content(100000): 
imageFile.write(chunk) 
imageFile.close() 


# TODO: Create and start the Thread objects. 
# TODO: Wait for all threads to end. 






















































































导入 需要 的 模块 后 , @ 行 创建 了 一 个 目录 来 保存 漫画 ， 并 开始 定义 downloadxkcd0@。 




















循环 遍历 指定 范围 中 的 所 有 编号 @， 并 下 载 每 个 页 面 @。 用 Beautiful Soup 查看 每 一 
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页 的 HIMLB@， 找 到 漫画 图 像 @。 如 果 页 面 上 没有 的 漫画 图 像 ， 就 打印 一 条 消息 。 
否则 ,取得 图 片 的 URL@， 并 下 载 图 像 @。 最 后 , 将 图 像 保 存 到 我 们 创建 的 目录 中 。 














第 2 步 : 创建 并 启动 线程 
既然 已 经 定义 downloadXkcd0 ， 我 们 将 创建 多 个 线程 ， 每 个 线程 调用 

downloadXkcd0 ， 从 XKCD 网 站 下 载 不 同 范围 的 漫画 。 将 下 面 的 代码 添加 到 
multidownloadXkcd.py 中 ， 放 在 downloadXkcd0 函 数 定义 之 后 : 


#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 






























































--SNip-- 


# Create and start the Thread objects. 

downloadThreads = [] # a list of all the Thread objects 

for i in range(0, 1400, 100): # loops 14 times, creates 14 threads 
downloadThread = threading.Thread(target=downloadXkcd, args=(i, i + 99)) 
downloadThreads .append(downloadThread) 
downloadThread.start() 


首先 ， 我 们 创建 了 一 个 空 列表 downloadThreads， 该 列表 帮助 我 们 追踪 创建 的 多 个 
Thread 对 象 。 然 后 开始 for 循环 。 在 每 次 循环 中 ， 我 们 利用 threading.Thread0 创 建 一 个 
Thread 对 象 , 将 它 追 加 到 列表 中 , 并 调用 start0, 开始 在 新 线程 中 运行 downloadXkcd0。 
因为 for 循环 将 变量 i 设置 为 从 0 到 1400, 步 长 为 100, 所 以 i 在 第 一 次 迭代 时 为 0， 
第 二 次 迭代 时 为 100， 第 三 次 为 200， 以 此 类 推 。 因 为 我 们 将 args=(I，I+99) 传 递 给 
threading.Thread0， 所 以 在 第 一 次 迭代 时 ,传递 给 downloadXkcd0 的 两 个 参数 将 是 0 
和 99， 第 二 次 迭代 是 100 和 199， 第 三 次 是 200 和 299， 以 次 类 推 。 

由 于 调用 了 Thread 对 象 的 start0 方 法 ， 新 的 线程 开始 运行 downloadXkcd0 中 的 
代码 ， 主 线程 将 继续 for 循环 的 下 一 次 迭代 ， 创 造 下 一 个 线程 。 




















































































































第 3 步 : 等 待 所 有 线程 结束 
主线 程 正常 执行 ， 同 时 我 们 创建 的 其 他 线程 下 载 漫画 。 但 是 假定 主线 程 中 有 一 
些 代 码 ， 你 希望 所 有 下 载 线 程 完成 后 再 执行 。 调 用 Thread 对 象 join0 方 法 将 阻塞 ， 
直到 该 线程 完成 。 利 用 一 个 for 循环 ， 裔 历 downloadThreads 列表 中 的 所 有 Thread 
对 象 ， 主 线程 可 以 调用 其 他 每 个 线程 的 join0 方 法 。 将 以 下 代码 添加 到 程序 的 末尾 : 


#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 



























































































































































--SNip-- 


# Wait for all threads to end. 

for downloadThread in downloadThreads: 
downloadThread.join() 

print('Done.') 


第 15 章 保持 时 间 、 计 划 任 务 和 启动 程序 293 


所 有 的 join0 调 用 返回 后 ，Done.' 字 符 串 才 会 打印 ， 如 果 一 个 Thread 对 象 已 经 完成 ， 





码 ， 在 所 有 漫画 下 载 后 运行 ， 就 可 以 月 








那么 调用 它 的 join0) 方 法 时 ， 该 方法 就 会 立即 返 





15.8 从 Python 启动 其 他 程序 


利用 内 建 的 subprocess 模块 中 的 Popen0 函 数 ，Python 程序 可 
其 他 程序 (Popen0 函 数 名 中 的 P 了 表示 process， 进 程 )。 如 果 你 打 
的 多 个 实例 ， 每 个 实例 都 是 同一 个 程序 的 不 同 进程 。 例 如 ， 如 果 你 同时 打开 
每 个 窗口 都 是 Web 浏览 器 程序 的 不 同 进程 。 





浏览 器 的 多 个 窗口 ， 





同时 打 
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多 个 计 外 


二 Calculator 


iew Edit Help 























器 进程 的 例子 。 




















回 。 如 果 想 扩展 这 个 程序 ， 
新 的 代码 蔡 换 print(Done.)。 


添加 一 些 代 








以 启动 计算 机 中 的 
开 了 一 个 应 用 程序 
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见 图 15-1， 这 是 
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每 个 i 
如 果 你 认为 多 线程 程序 是 多 个 手指 在 追踪 源 代码 ， 
有 一 个 朋友 拿 着 程序 源 代码 的 独立 副本 。 你 们 都 独立 地 执行 相同 
如 果 想 在 Python 脚本 中 启动 一 个 外 部 程 
subprocess.Popen()( 在 Windows 中 ， 碳 








F Cala © Python < 
wpython 340 Sh- la 一 itled-1 @ 66- Ee strator C.. EE Ce La I culator 





15-1 相同 的 计算 器 程序 ， 六 个 正在 运行 的 进程 
程 可 以 有 多 个 线程 。 不 像 线程 ， 进 程 无 法 直接 读 写 另 一 个 进程 的 变量 
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查看 应 用 程序 的 文件 
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名 。 















































那么 同一 个 程序 打开 多 个 进程 就 像 
的 程序 。 











序 ， 就 将 该 程 





序 的 文件 名 传递 给 











建 点 击 该 应 用 程序 的 开 
在 OS X 上 ， 按 住 Ctrl 键 单 避 


台 菜 单项 ， 然 后 选择 





fF 该 应 用 程序 并 选择 























显示 包 








在 Windows 计算 机 上 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import subprocess 
>>> subprocess.Popen('C:\\Windows\\System32\\calc.exe') 
<subprocess.Popen object at Ox0000000003055A58> 


在 Ubuntu Linux 上 ， 可 以 输入 以 下 代码 : 


>>> import subprocess 
>>> subprocess.Popen('/usr/bin/gnome-calculator') 
<subprocess.Popen object at Ox7f2bcf93b20> 


在 OSX 上 ， 过 程 稍 有 不 同 。 参 见 15.8.5 节 “ 用 默认 应 | 


» 
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可 以 认为 poll0 方 法 是 问 你 的 月 
进程 在 
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， 还 是 


而 不 同 )。 


wait() 方 法 就 像 是 等 
wait0 方 法 将 阻塞 ， 直 至 





个 错误 导致 进程 终止 ( 退 
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直到 退出 


>>> calcProc = subprocess.Popen('c:\\Windows\\System32\\calc.exe') 
>>> calcProc.po011() == None 











口 





他 程序 ， 这 非常 有 用 。 
在 Windows 上 ， 在 交互 环境 中 输入 以 下 




















waitO 的 返 


























局 动 的 计 香 


>>> calcProc.wait() 


>>> CalcProc.poll() 
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这 是 
None@ 。 它 应 该 i 


己 终止 的 进程 调 
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旺 ， 我 们 打开 了 计 入 
None， 因 


器 程序 。 
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时 仍 在 运行 ，poll(0 方 法 就 返 


的 整数 退出 代码 。 退 出 代码 





内 容 ”， 找 到 可 执行 文件 的 路 径 )。Popen(O) 函 数 随后 将 立即 返回 。 
启动 的 程序 和 你 的 Python 程序 不 在 同一 线程 中 运行 。 








请 记 住 ， 












































于 说 明 i 








代码 非 零 ， 


朋友 执行 完 她 


| 启动 的 进程 终止 。 如 


ES 


四 
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a 

















wait()。 


程序 打开 文件 ”。 
值 是 一 个 Popen 对 象 ， 它 有 两 个 有 用 的 方法 : poll0 和 
有 上 友 ， 她 是 否 执 行 完 毕 你 给 她 的 代码 。 如 果 这 个 
回 None。 如 果 该 程序 已 经 终止 ， 

程 是 无 错 终 1 





上 《退出 代码 














通常 为 1， 但 





日 





J 能 根据 程序 





的 代码 ， 然 后 你 继续 执行 你 的 代码 。 
你 希望 你 的 程序 暂停 ， 直 到 用 户 完成 
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是 进程 








的 整数 退出 代码 。 

















尺码 。 请 注意 ， 





























15.8.1 向 Popen() 传 递 命 令 行 参数 


用 PopenO 
传递 一 个 列表 ， 
行文 件 名 ， 所 有 后 续 的 字符 是 









































为 该 进程 仍 在 运行 。 
] wait0 上 日 。wait0 和 poll0 现 在 返回 





作为 唯一 的 参数 。 该 列表 中 的 第 一 个 字符 囊 





waitO 的 调 ) 


器 程序 @ 。 在 它 仍 在 运行 时 ， 我 们 检查 poll0 是 否 返 回 
然后 ， 我 们 关闭 计算 器 程序 ， 并 对 
0， 说 明 该 进程 终止 且 无 错 。 














将 阻塞 ， 














创建 进程 时 ， 可 以 向 进程 传递 命令 行 参数 。 要 做 到 这 一 点 ， 向 Popen() 

















际 上 ， 这 个 列表 将 作为 被 启动 程序 的 sys.argv 的 值 。 
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是 要 局 动 的 程序 的 可 执 
将 是 该 程序 启动 时 ， 传 递 给 该 程序 的 命令 行 参数 。 实 
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大 多 数 具 有 图 形 用 户 界面 GUI) 的 应 用 程序 ， 不 像 基于 命令 行 或 基于 终端 的 
程序 那样 尽 可 能 地 使 用 命令 行 参 数 。 但 大 多 数 GUI 应 用 程序 将 接受 一 个 参数 ， 表 示 
点 用 程序 启动 时 立即 打开 的 文件 。 例 如 ， 如 果 你 使 用 的 是 Windows， 创 建 一 个 简单 
的 文本 文件 C:\hello.txt， 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> subprocess.Popen(['C:\\Windows\\notepad.exe', 'C:\\hello.txt']) 
<subprocess.Popen object at Ox00000000032DCEB8> 


这 不 仅 会 启动 记事 本 应 用 程序 ， 也 会 让 它 立 即 打 开 C:\hello.txt。 































































































15.8.2 Task Scheduler、launchd 和 cron 

如 果 你 精通 计算 机 ， 可 能 知道 Windows 上 的 Task Scheduler，OS X 上 的 
launchd， 或 Linux 上 的 cron 调度 程序 。 这 些 工具 文档 齐全 ， 而 且 可 靠 ， 它 们 都 允许 
你 安排 应 用 程序 在 特定 的 时 间 启 动 。 如 果 想 更 多 地 了 解 它 们 ， 可 以 在 http:Wnostarch. 
com/automatestuff/ 找 到 教程 的 链接 。 

利用 操作 系统 内 置 的 调度 程序 ， 你 不 必 自 己 写 时 钟 检查 代码 来 安排 你 的 程序 。 但 
是 ， 如 果 只 需要 程序 稍 作 停顿 ， 就 用 time.sleep0 函 数 。 或 者 不 使 用 操作 系统 的 调度 程 
序 ， 代 码 可 以 循环 直到 特定 的 日 期 和 时 间 ， 每 次 循环 时 调用 time.sleep(1)。 
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15.8.3 用 Python 打开 网 站 

webbrowser.open(O 函 数 可 以 从 程序 启动 Web 浏览 器 ， 打 开 指 定 的 网 站 ， 而 不 是 
| subprocess.PopenO 打 开 浏览 器 应 用 程序 。 详 细 内 容 参见 第 11 章 的 “项 目 : 利用 
webbrowser 模块 的 mapILpy” 一 节 。 

































































15.8.4 运行 其 他 Python 脚本 
可 以 在 Python 中 启动 另 一 个 Python 脚本 ， 就 像 任何 其 他 的 应 用 程序 一 样 。 只 需 
向 PopenO 传 入 python.exe 可 执行 文件 ， 并 将 想 运 行 的 .py 脚本 的 文件 名 作为 它 的 参 
数 。 例 如 ， 下 面 代码 将 运行 第 1 章 的 hello.py 脚本 : 


>>> subprocess.Popen(['C:\\python34\\python.exe', 'hello.py']) 
<subprocess.Popen object at Ox000000000331CF28> 


向 Popen0 传 入 一 个 列表 ， 其 中 包含 Python 可 执行 文件 的 路 径 字 符 串 ， 以 及 脚本 
文件 名 的 字符 串 。 如 果 要 启动 的 脚本 需要 命令 行 参数 ， 就 将 它们 添加 列表 中 ， 放 在 肢 
本 文件 名 后 面 。 在 Windows 上 ，Python 可 执行 文件 的 路 径 是 C: \python34\ python.exe。 
在 OSX 上， 是 /Library/Frameworks/Python.framework/ Versions/3.3/bin/python3。 在 Linux 
上 ， 是 /usr/bin/python3。 

不 同 于 将 Python 程序 导入 为 一 个 模块 ， 如 果 Python 程序 启动 了 另 一 个 Python 
程序 ， 两 者 将 在 独立 的 进程 中 运行 ， 不 能 分 享 彼 此 的 变量 。 
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15.8.5 ”用 默认 的 应 用 程序 打开 文件 
双击 计算 机 上 的 .txt 文件 ， 会 自动 启动 与 txt 文件 扩展 名 关联 的 应 用 程序 。 计 算 
机 上 已 经 设置 了 一 些 这 样 的 文件 扩展 名 关联 。 利 用 Popen0，Python 也 可 以 用 这 种 
方式 打开 文件 。 
每 个 操作 系统 都 有 一个 程序 ， 其 行为 等 价 于 双击 文档 文件 来 打开 它 。 在 Windows 
上 ， 这 是 start 程序 。 在 OS X 上 ， 这 是 open 程序 。 在 Ubuntu Linux 上 ， 这 是 see 程序 。 
在 交互 式 环境 中 输入 以 下 代码 ， 根 据 操作 系统 ， 向 Popen0 传 入 start、'open' 或 see': 
>>> file0bj = open('hello.txt' Ww) 
>>> file0bj.write('Hello world!') 
12 
>>> file0bj.close() 


>>> import Subprocess 
>>> subprocess.Popen(['start', 'hello.txt'], shell=True) 


这 里 ， 我 们 将 Hello world! 写 入 一 个 新 的 hello.txt 文件 。 然 后 调用 Popen0， 传 入 一 个 
列表 ， 其 中 包含 程序 名 称 《在 这 个 例子 中 ， 是 Windows 上 的 'start )， 以 及 文件 名 。 我 们 也 
传 入 了 shell=True 关键 字 参 数 , 这 只 在 Windows 上 需要 。 操作 系统 知道 所 有 的 文件 关联 ， 
能 弄 清楚 应 该 启动 哪个 程序 ， 比 如 Notepad.exe， 来 处 理 hello.txt 文件 。 

在 OS X 上，open 程序 用 于 打开 文档 文件 和 程序 。 如 果 你 有 Mac， 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> subprocess.Popen(['open', '/Applications/Calculator.app/']) 
<subprocess.Popen object at Ox10202ff98> 


计算 器 应 用 程序 应 该 会 打开 。 











































































































































































































































































































Unix 哲学 

程序 精心 设计 ， 能 被 其 他 程序 启动 ， 这 样 的 程序 比 单独 使 用 它们 自己 的 代码 
更 强大 。Unix 的 哲学 是 一 组 由 UNIX 操作 系统 (现代 的 Linux 和 OSX 也 是 基于 
它 ) 的 程序 员 建 立 的 软件 设计 原则 。 它 认为 : 编写 小 的 、 目 的 有 限 的 、 能 互 操作 
的 程序 ， 胜 过 大 的 、 功 能 丰富 的 应 用 程序 。 

较 小 的 程序 更 容易 理解 ， 通 过 能 够 互 操作 ， 它 们 可 以 是 更 强大 的 应 用 程序 的 
构建 块 。 智 能 手机 应 用 程序 也 遵循 这 种 方式 。 如 果 你 的 餐厅 应 用 程序 需要 显示 一 
间 咖 啡 店 的 方位 ， 开 发 者 不 必 重 新 发 明 轮 子 ， 编 写 自 己 的 地 图 代码 。 餐 厅 应 用 程 
序 只 是 启动 一 个 地 图 应 用 程序 ， 同 时 传 入 咖啡 店 的 地 址 ， 就 像 Python 代码 调用 
一 个 函数 ， 并 传 入 参数 一 样 。 

你 在 本 书 中 编写 的 Python 程序 大 多 符合 Unix 哲学 ， 尤 其 是 在 一 个 重要 的 方 
面 : 它们 使 用 命令 行 参 数 ， 而 不 是 inputO 函 数 调用 。 如 果 程 序 需 要 的 所 有 信息 都 
可 以 事先 提供 ， 最 好 是 用 命令 行 参 数 传 入 这 些 信息 ， 而 不 是 等 待 用 户 键入 它 。 这 
样 ， 命 令 行 参数 可 以 由 人 类 用 户 键入 ， 也 可 以 由 另 一 个 程序 提供 。 这 种 互 操作 的 
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方式 ， 让 你 的 程序 可 以 作为 另 一 个 程序 的 部 分 而 复 用 。 

唯一 的 例外 是 ， 你 不 希望 口令 作为 命令 行 参数 传 入 ， 因 为 命令 行 可 能 记录 它们 ， 
作为 命令 历史 功能 的 一 部 分 。 在 需要 输入 口令 时 ， 程 序 应 该 调用 inputO 函 数 。 

在 https://en.wikipedia.org/wiki/Unix_philosophy/， 你 可 以 阅读 更 多 有 关 Unix 
哲学 的 内 容 。 


15.9 项 目 : 简单 的 倒计时 程序 


就 像 很 难 找到 一 个 简单 的 秒表 应 用 程序 一 样 ， 也 很 难 找到 一 个 简单 的 倒计时 程 
序 。 让 我 们 来 写 一 个 倒计时 程序 ， 在 倒计时 结束 时 报警 。 
总 的 来 说 ， 程 序 要 做 到 : 
。 从 60 倒数 。 
e。 倒数 至 0 时 播放 声音 文件 〈alarm.wav )。 
这 意味 着 代码 将 需要 做 到 以 下 几 点 : 
。 在 显示 倒计时 的 每 个 数字 之 间 ， 调 用 time.sleep0 暂 停 一 秒 。 
。 调用 subprocess.Popen()， 用 默认 的 应 用 程序 播放 声音 文件 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 countdown.py。 






























































































































































第 1 步 : 倒计时 
这 个 程序 需要 time 模块 的 time.sleepO 函 数 ，subprocess 模块 的 subprocess. Popen( 
函数 。 输 入 以 下 代码 并 保存 为 countdown.py: 


#! python3 
# countdown.py - A simple countdown script. 





import time, subprocess 
© timeLeft = 60 
While timeLeft > 0: 
© print(timeLeft, end='') 
© time.sleep(1) 
[49 timeLeft = timeLeft - 1 


# TODO: At the end of the countdown, play a sound file. 


导入 time 和 subprocess 后 ， 创 建 变 量 timeleft， 保 存 倒计时 剩 下 的 秒 数 @。 它 

从 60 开始 ， 或 者 可 以 根据 需要 更 改 这 里 的 值 ， 甚 至 通过 命令 行 参数 设置 它 。 
在 while 循环 中 ,显示 剩余 次 数 @， 和 暂停 一 秒 钟 @， 再 减少 timeleft 变量 的 值 @， 

然后 循环 再 次 开始 。 只 要 timeleft 大 于 0, 循环 就 继续 。 在 这 之 后 , 倒计时 就 结束 了 。 



















































































第 2 步 : 播放 声音 文件 
虽然 有 第 三 方 模块 ， 播 放 各 种 声音 文件 ， 但 快速 而 简单 的 方法 ， 是 启动 用 户 使 
































298 Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 














的 任何 播放 声音 文件 的 应 用 程序 。 操 作 系统 通过 .wav 文件 扩展 名 ,会 弄 清楚 应 该 
启动 哪个 应 用 程序 来 播放 该 文件 。 这 个 .wav 文件 很 容易 变 成 其 他 声音 文件 格式 ， 
如 .mp3 或 .ogg。 

可 以 使 用 计算 机 上 的 任何 声音 文件 ， 在 倒计时 结束 播放 ， 也 可 以 从 http://nostarch. 
com/automatestuff/ 下 载 alarm.wav。 


在 程序 中 添加 以 下 代码 : 


#! python3 
# countdown.py - A simple countdown script. 

























































































import time, subprocess 
--SNip-- 


# At the end of the countdown, play a sound file. 
subprocess.Popen(['start', 'alarm.wav'], shell=True) 

















while 循环 结束 后 ，alarm.wav〔 或 你 选择 的 声音 文件 ) 将 播放 ， 通 知 用 户 倒 计 
时 结束 。 在 Windows 上 ， 要 确保 传 入 Popen0 的 列表 中 包含 start， 并 传 入 关键 字 参 
数 shell=True。 在 OSX 上 ， 传 入 'open'， 而 不 是 'start*， 并 去 掉 shell=True。 

除了 播放 声音 文件 之 外 ,你 可 以 在 一 个 文本 文件 中 保存 一 条 消息 , 例如 Break time 
is over!。 然 后 在 倒计时 结束 时 用 Popen0 打 开 它 。 这 实际 上 创建 了 一 个 带 消息 的 弹 
出 窗口 。 或 者 你 可 以 在 倒计时 结束 时 ， 用 webbrowser.open0 函 数 打开 特定 网 站 。 不 像 在 
网 上 找到 的 一 些 免费 倒计时 应 用 程序 ， 你 自己 的 倒计时 程序 的 警报 可 以 是 任何 你 希望 的 
方式 ! 



































































































































卫 


第 3 步 : 类 似 程 序 的 想法 
倒计时 是 简单 的 延 时 , 然后 继续 执行 程序 。 这 也 可 以 用 于 其 他 应 用 程序 和 功能 ， 
诸如 : 
。 利用 time.sleep0 给 用 户 一 个 机 会 ， 按 下 Ctrl-C 取消 的 操作 ,例如 删除 文件 。 你 
的 程序 可 以 打印 “Press Ctrl-C to cancel”， 然 后 用 try 和 except 语句 处 理 所 有 
KeyboardInterrupt 异常 。 
。 对 于 长 期 的 倒计时 , 可 以 用 timedelta 对 象 来 测量 直到 未 来 某 个 时 间 点 (生日 ? 
周年 纪念 ? ) 的 天 、 时 、 分 和 秒 数 。 









































































































































15.10 小结 

对 于 许多 编程 语言 ， 包 括 Python，Unix 纪元 (1970 年 1 月 1 日 午夜 ，UTC) 
是 一 个 标准 的 参考 时 间 。 虽 然 time.time0) 函 数 模 块 返回 一 个 Unix 纪元 时 间 戳 〈 也 
就 是 自 Unix 纪元 以 来 的 秒 数 的 浮 点 值 )， 但 datetime 模块 更 适合 执行 日 期 计算 、 格 
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式 化 和 解析 日 期 信息 的 字符 串 。 

time.sleepO 函 数 将 阻塞 〈 即 不 返回 ) 知 干 秒 。 它 可 以 用 于 在 程序 中 暂停 。 但 如 
果 想 安排 程序 在 特定 时 间 启 动 ，http://nostarch.com/automatestuff/ 上 的 指南 可 以 告 
诉 你 如 何 使 用 操作 系统 已 经 提供 的 调度 程序 。 

threading 模块 用 于 创建 多 个 线程 ， 如 果 需 要 下 载 多 个 文件 或 同时 执行 其 他 任务 ， 
这 非常 有 用 。 但 是 要 确保 线程 只 读 写 局 部 变量 ， 否 则 可 能 会 遇 到 并 发 问题 。 
最 后 ，Python 程序 可 以 用 subprocess.Popen0O 函 数 ， 启 动 其 他 应 用 程序 。 命 令 行 
参数 可 以 传递 给 Popen0 调 用 , 用 该 应 用 程序 打开 特定 的 文档 。 另 外 , 也 可 以 用 Popen0) 
启动 start、open 或 see 程序 ， 利 用 计算 机 的 文件 关联 ， 自 动 弄 清楚 用 来 打开 文件 的 
中 用 程序 。 通 过 利用 计算 机 上 的 其 他 应 用 程序 ，Python 程序 可 以 利用 它们 的 能 
满足 你 的 自动 化 需求 。 









































































































































































































































































































































15.11 习题 


1. 什么 是 Unix 纪元 ? 

2. 什么 函数 返回 自 Unix 纪元 以 来 的 秒 数 ? 
3. 如 何 让 程序 刚好 暂停 5 秒 ? 

4. round0 函 数 返 回 什么 ? 
5 
6 











.datetime 对 象 和 timedelta 对 象 之 间 的 区 别 是 什么 ? 
.假设 你 有 一 个 函数 名 为 spam0。 如 何在 一 个 独立 的 线程 中 调用 该 函数 并 运 
行 其 中 的 代码 ? 
7. 为 了 避免 多 线程 的 并 发 问题 ， 应 该 怎样 做 ? 
8， 如 何 让 Python 程序 运行 CN\ Windows\System32 文件 夹 中 的 calc.exe 程序 ? 
































15.12 ”实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 

















15.12.1 美化 的 秒表 
扩展 本 章 的 秒表 项 目 ， 让 它 利用 rjust0 和 ljustO 字符 串 方 法 来 “美化 ”的 输出 。 
(这 些 方法 在 第 6 章 中 介绍 过 )。 输 出 不 是 像 这 样 : 












































Lap #1: 3.56 (3.56) 
Lap #2: 8.63 (5.07) 
Lap #3: 17.68 (9.05) 
Lap #4: 19.11 (1.43) 


… 而 是 像 这 样 : 
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Lap #1: 3.56 ( 3.56) 
Lap # 2: 8.63 ( 5.07) 
Lap # 3: 17.68 ( 9.05) 
Lap # 4: 19.11 ( 1.43) 


FF 心太 夺 


请 注意 ， 对 于 lapNum、lapTime 和 totalTime 等 整 型 和 浮 点 型 变量 ,你 需要 字符 
串 版 本 ， 以 便 对 它们 调用 字符 串 方 法 。 接 下 来 ， 利 用 第 6 章 中 介绍 的 pyperclip 模块 ， 
将 文本 输出 复制 到 剪贴 板 ， 以 便 用 户 可 以 将 输出 快速 粘贴 到 一 个 文本 文件 或 电子 邮 
件 中 。 




































































15.12.2 ”计划 的 Web 漫画 下 载 

编写 一 个 程序 ， 检 查 几 个 Web 漫画 的 网 站 ， 如 果 自 该 程序 上 次 访问 以 来 ， 漫 画 
有 更 新 ， 就 自动 下 载 。 操 作 系 统 的 调度 程序 (Windows 上 的 Task Scheduler，OS X 上 
的 launchd， 以 及 Linux 上 的 cron) 可 以 每 天 运行 你 的 Python 程序 一 次 。Python 程 
序 本 身 可 以 下 载 漫画 ， 然 后 将 它 复 制 到 桌面 上 ， 这 样 很 容易 找到 。 你 就 不 必 自 己 查 
看 网 站 是 否 有 更 新 (在 http://nostarch.com/automatestuff/ 上 有 一 份 Web 漫画 的 列表 )。 
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*1| Os 


发 送 电 子 邮 件 和 短信 





检查 和 答复 电子 邮件 会 占用 大 量 的 时 间 。 当 然 ， 你 不 能 只 
写 一 个 程序 来 处 理 所 有 电子 邮件 ,因为 每 个 消息 都 需要 有 自己 
的 回应 。 但 是 ,一旦 知道 怎么 编写 收发 电子 邮件 的 程序 ， 就 可 
以 自动 化 大 量 与 电子 邮件 相关 的 任务 。 

例如 ,也许 你 有 一 个 电子 表格 ,包含 许多 客户 记录 ,希望 
根据 他 们 的 年 龄 和 位 置信 息 ， 向 每 个 客户 发 送 不 同 格式 的 邮 
件 。 商 业 软 件 可 能 无 法 做 这 一 点 。 好 在 ， 可 以 编写 自己 的 程序 
来 发 送 这 些 电 子 邮 件 ， 节 和 省 了 大 量 复制 和 粘贴 电子 邮件 的 时 间 。 

也 可 以 编程 发 送 电 子 邮 件 和 短信 ， 即 使 你 远离 计算 机 时 ， 也 能 通知 你 。 如 果 要 
I 任务 需要 执行 几 个 小 时 ， 你 不 希望 每 过 几 分 钟 就 回 到 计算 机 旁边 ， 检 查 程 
序 的 状态 。 相 反 ， 程 序 可 以 在 完成 时 向 手机 发 短信 ， 让 你 在 离开 计算 机 时 ， 能 专注 


于 更 重要 的 事情 。 
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16.1 SMTP 


正如 HTTP 是 计算 机 用 来 通过 因特网 发 送 网 页 的 协议 ， 简 单 邮件 传输 协议 CSMTP) 
是 用 于 发 送 电子 邮件 的 协议 。SMTP 规定 电子 邮件 应 该 如 何 格式 化 、 加 密 、 在 邮件 服 








































































































16.2 


16.2.1 


务 器 之 间 传 递 ， 以 及 在 你 点 击发 送 后 ， 计 算 机 要 处 理 的 所 有 其 他 细节 。 但 是 ， 你 并 不 















































需要 知道 这 些 技术 细节 ， 因 为 Python 的 smtplib 模块 将 它们 简化 成 几 个 函数 。 
SMTP 只 负责 向 别人 发 送 电子 邮件 。 另 一 个 协议 ， 名 为 IMAP， 负 责 取 回 发 送 
给 你 的 电子 邮件 ， 在 16.3 节 “IMAP” 中 介绍 。 






































发 送 电子 邮件 



















































































































































































你 可 能 对 发 送 电 子 邮 件 很 熟悉 , 通过 Outlook、Thunderbird 或 某 个 网 站 , 如 Gmail 
或 雅虎 邮箱 。 遗 憾 的 是 ，Python 没有 像 这 些 服务 一 样 提供 一 个 漂亮 的 图 形 用 户 界 
面 。 作 为 蔡 代 ， 你 调用 函数 来 执行 SMTP 的 每 个 重要 步骤 ,就 像 下 面 的 交互 式 环 
境 的 例子 。 

不 要 在 IDLE 中 输入 这 个 例子 ， 因 为 smtp.example.com、bob@example.com、MY_ 
SECRET PASSWORD 和 alice@example.com 只 是 占 位 符 。 这 段 代 码 仅仅 勾勒 出 
Python 发 送 电 子 邮 件 的 过 程 。 
>>> import smtplib 
>>> Smtpobj = smtplib.SMTP('smtp.example.com', 587) 
>>> Smtpobj.ehlo() 

(250, b'mx.example.com at your service, [216.172.148.131] \NSIZE 35882577\ 
n8BITMIME\nSTARTTLS\nENHANCEDSTATUSCODES\nCHUNKING ' ) 

>>> Smtpobj.startt1ls() 

(220, b'2.0.0 Ready to start TLS') 

>>> smtpO0bj.1login('bob@example.com', 'MY_SECRET PASSWORD') 

(235, b'2.7.0 Accepted') 

>>> smtpO0bj.sendmail('bob@example.com', 'alice@example.com', 'Subject: So 
long.\nDear Alice, so long and thanks for all the fish. Sincerely, Bob') 
{} 

>>> Smtpobj.quit() 

(221, b'2.0.0 closing connection ko10sm23097611pbd.52 - gsmtp') 

在 下 面 的 小 节 中 ， 我 们 将 探讨 每 一 步 ， 用 你 的 信息 替换 占 位 符 ， 连 接 并 登录 到 
SMTP 服务 器 ， 发 送 电子 邮件 ， 并 从 服务 器 断 开 连 接 。 

连接 到 SMTP 服务 器 


如 果 你 曾 设 置 了 Thunderbird、Outlook 或 其 他 程序 , 连接 到 你 的 电子 邮件 账户 ， 


你 可 能 熟悉 配置 SMTP 服务 器 和 端口 。 这 些 设置 因 
上 搜索 “< 你 的 提供 商 > SMTP 设置 ?， 应 该 能 找到 相应 的 服务 器 和 端 


SMTP 


























电子 邮件 提供 商 而 不 同 ， 但 在 网 
口 。 


包子 邮件 提供 商 的 域名 , 前 面 加 上 SMTP。 例如 ， 
























































是 上 


服务 器 的 域名 通常 是 
































Gmail 的 SMTP 服务 器 是 smtp.gmail.com。 表 16-1 列 出 了 一 些 常 见 的 电子 邮件 提 

















供 商 及 其 SMTP 服务 器 (端口 是 
标准 TLS 使 用 )。 











个 整数 值 ， 几 乎 总 是 587， 该 端口 由 命令 加 密 





人 下 
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表 16-1 电子 邮件 提供 商 及 其 SMTP 服务 器 





提供 商 SMTP 服务 器 域名 

Gmail smitp.gmail.com 
Outlook.com/Hotmail.com smtp-mail.outlook.com 
Yahoo Mail smitp.mail.yahoo.com 
AT&T smpt.mail.att.net (port 465) 
Comcast smitp.comcast.net 

Verizon smip.verizon.net (port 465) 














得 到 电子 邮件 提供 商 的 域名 和 端口 信息 后 ， 调 用 smtplib.SMTPO 创 建 一 个 SMTP 
对 象 ， 传 入 域名 作为 一 个 字符 串 参 数 ， 传 入 端口 作为 整数 参数 。SMTP 对 象 表示 与 
SMTP 邮件 服务 器 的 连接 ， 它 有 一 些 发 送 电子 邮件 的 方法 。 例 如 ， 下 面 的 调用 创建 
了 一 个 SMTP 对 象 ， 连 接 到 Gmail 


>>> Smtpobj = smtplib.SMTP('smtp.gmail.com', 587) 
>>> type(smtp0bj) 
<class 'smtplib.SMTP'> 


输入 type(smtpObj) 表 明 , smtpObj 中 保存 了 一 个 SMTP 对 象 ,你 需要 这 个 SMTP 
对 象 ， 以 便 调 用 它 的 方法 ， 登 录 并 发 送 电子 邮件 。 如 果 smtplib.SMTPO 调 用 不 成 
功 ， 你 的 SMTP 服务 器 可 能 不 支持 TLS 端口 587。 在 这 种 情况 下 ， 你 需要 利用 
smtplib.SMTP_SSLO 和 465 端口 ， 来 创建 SMTP 对 象 。 


>>> Smtpobj = smtplib.SMTP SSL('smtp.gmail.com', 465) 



































































































































如 果 没 有 连接 到 因特网 ，Python 将 抛 出 socket.gaierror: [Errno 11004] getaddrinfo 
failed 或 类 似 的 异常 。 








对 于 你 的 程序 ，TLS 和 SSL 之 间 的 区 别 并 不 重要 。 只 需要 知道 你 的 SMTP 服务 
器 使 用 哪 种 加 密 标准 , 这 样 就 知道 如 何 连接 它 。 在 接 下 来 的 所 有 交互 式 环境 示例 中 ， 
smtpObj 变量 将 包含 smtplib.SMTP0 或 smtplib.SMTP_SSLO 函 数 返回 的 SMTP 对 象 。 















































16.2.2 发送 SMTP 的 “Hello” 消 息 








得 到 SMTP 对 象 后 ， 调 用 它 的 名 字 古 怪 的 EHLOO 方 法 ， 向 SMTP 电子 邮件 服 
务 器 “打招呼 ” 这 种 问候 是 SMTP 中 的 第 一 步 ， 对 于 建立 到 服务 器 的 连接 是 很 重 
要 的 。 你 不 需要 知道 这 些 协议 的 细节 。 只 要 确保 得 到 SMTP 对 象 后 ， 第 一 件 事 就 是 
调用 ehlo0 方 法 , 否则 以 后 的 方法 调用 会 导致 错误 。 下面 是 一 个 ehlo0 调 用 和 返回 值 
的 例子 : 


>>> Smtpobj.ehlo() 
(250, b'mx.google.com at your Service，[216.172.148.131]\nSIZE 35882577\ 
n8BITMIME\nSTARTTLS\nENHANCEDSTATUSCODES\nCHUNKING ' ) 
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如 果 在 返回 的 元 组 中 ， 第 一 项 是 整数 250 (SMTP 中 “成 功 ” 的 代码 )， 则 问候 





成 功 了 。 


16.2.3 ”开始 TLS 加 密 











如 果 要 连接 到 SMTP 服务 器 的 587 端口 “即使 用 






































TLS 加 密 )， 接 下 来 需要 调用 








starttls(0 方 法 。 这 是 为 连接 实现 加 密 必 须 的 步骤 。 如 果 要 连接 到 465 端口 〈 使 用 SSL )， 


加 密 已 经 设置 好 了 ， 你 应 该 跳 过 这 一 步 。 
下 面 是 starttls0 方 法 调用 的 例子 : 


>>> Smtpobj.starttls() 
(220, b'2.0.0 Ready to start TLS') 












































starttlsO 让 SMTP 连接 处 于 TLS 模式 。 返回 值 220 告诉 你 ， 该 服务 器 已 准备 就 绪 。 








16.2.4 ”登录 到 SMTP 服务 器 








到 SMTP 服务 器 的 加 密 连 接 建 立 后 ， 可 以 调用 login0 方 法 ， 用 你 的 用 户 名 ( 通 











常 是 你 的 电子 邮件 地 址 ) 和 电子 邮件 密码 登录 。 






































>>> smtpO0bj.1login('my email address@gmail.com', 'MY_SECRET PASSWORD') 


(235, b'2.7.0 Accepted') 





传 入 电子 邮件 地 址 字符 串 作为 第 一 个 参数 ,密码 字符 串 作 为 第 二 个 参数 。 返回 值 235 
表示 认证 成 功 。 如 果 密 码 不 正确 ，Python 会 抛 出 smtplib. SMTPAuthenticationError 异常 。 

将 密码 放 在 源 代 码 中 要 当心 。 如 果 有 人 复制 了 你 的 程序 ， 他 们 就 能 访问 你 的 电 
子 邮件 账户 ! 调用 input0， 让 用 户 输入 密码 是 一 个 好 主意 。 每 次 运行 程序 时 输入 密 


































































































码 可 能 不 方便 ， 但 这 种 方法 不 会 在 未 加 密 的 文件 中 留 下 你 的 密码 ， 黑 客 或 笔记 本 电 











脑 镭 贼 不 会 轻易 地 得 到 它 。 


16.2.5 ”发 送 电子 邮件 















































登录 到 电子 邮件 提供 商 的 SMTP 服务 器 后 ， 可 以 调用 的 sendmail0 方 法 来 发 送 
































电子 邮件 。sendmail0) 方 法 调用 看 起 来 像 这 样 : 























>>> smtpObj.sendmail('my email address@gmail.com', 'recipient@example.com', 
'Subject: So long.\nDear Alice, so long and thanks for all the fish. Sincerely, 
Bob') 

{} 


sendmail() 方 法 需要 三 个 参数 。 

















。 你 的 电子 邮件 地 址 字符 串 (电子 邮件 的 “from” 地 址 )。 
。 收 件 人 的 电子 邮件 地 址 字符 串 ， 或 多 个 收 件 人 的 字符 串 列表 作为 “to” 地 址 )。 






































。 电子 邮件 正文 字符 串 。 

















电子 邮件 正文 字符 串 必须 以 'Subject: 开头， 作为 电子 邮件 的 主题 行 。\n' 换 行 
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符 将 主题 行 与 电子 邮件 的 正文 分 开 。 
sendmailO 的 返回 值 是 一 个 字典 。 对 于 电子 邮件 传送 失败 的 每 个 收 件 人 ， 该 字 
中 会 有 一 个 键 值 对 。 空 的 字典 意味 着 对 所 有 收 件 人 已 成 功 发 送 电子 邮件 。 










































































Gmail 应 用 程序 专用 密码 
Gmail 有 针对 谷歌 账户 的 附加 安全 功能 ， 称 为 应 用 程序 专用 密码 。 如 果 当 
你 的 程序 试图 登录 时 ， 收 到 “需要 应 用 程序 专用 密码 ”的 错误 信息 ， 就 必须 在 
Python 脚本 设置 这 样 一 个 密码 。 具 体 如 何 设置 谷歌 账户 的 应 用 程序 专用 密码 ， 参 
见 http:/nostarch.comy/automatestuff/。 


16.2.6 从 SMTP 服务 器 断 开 
确保 在 完成 发 送 电子 邮件 时 ， 调 用 quit0 方 法 。 这 让 程序 从 SMTP 服务 器 断 开 。 


>>> Smtpobj.quit() 
(221, b'2.0.0 closing connection ko10sm23097611pbd.52 - gsmtp') 






























































返回 值 221 表示 会 话 结 束 。 
要 复习 连接 和 登录 服务 器 、 发 送 电子 邮件 和 断 开 的 所 有 步骤 ,请 参阅 16.2 节 “ 发 
送 电 子 邮 件 ”。 
16.3 IMAP 




















正如 SMTP 是 用 于 发 送 电 子 邮 件 的 协议 ， 因 特 网 消息 访问 协议 (IMAP) 规定 了 如 
何 与 电子 邮件 服务 提供 商 的 服务 器 通信 ， 取 回 发 送 到 你 的 电子 邮件 地 址 的 电子 邮件 。 
Python 带 有 一 个 imaplib 模块 ， 但 实际 上 第 三 方 的 imapclient 模块 更 易 用 。 本 章 介绍 了 
如 何 使 用 IMAPClient， 完 整 的 文档 在 http:Wimapclientreadthedocs.org/。 

imapclient 模块 从 IMAP 服务 器 下 载 电 子 邮件 ， 格 式 相 当 复 杂 。 你 很 可 能 希望 
将 它们 从 这 种 格式 转换 成 简单 的 字符 串 。pyzmail 模块 蔡 你 完成 解析 这 些 邮 件 的 辛 
苦 工 作 。 在 http://www.magiksys.net/pyzmail/ 可 以 找到 PyzMail 的 完整 文档 。 
从 终端 窗口 安装 imapclient 和 pyzmail。 附 录 A 包含 了 如 何 安 装 第 三 方 模块 
的 步骤 。 






















































































































































































16.4 用 IMAP 获取 和 删除 电子 邮件 
在 Python 中 ， 碍 找 和 获取 电子 邮件 是 一 个 多 步骤 的 过 程 ， 需 要 第 三 方 模块 
imapclient 和 pyzmail。 作 为 概述 ， 这 里 有 一 个 完整 的 例子 ， 包 括 登 录 到 IMAP 服务 
器 ， 搜 索 电 子 邮件 ， 获 取 它 们 ， 然 后 从 中 提取 电子 邮件 的 文本 。 
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>>> import imapclient 

>>> imapobj = imapclient.IMAPClient('imap.gmail.com', ssl=True) 

>>> imapObj.login('my_email address@gmail.com', 'MY_SECRET PASSWORD') 
'my_email address@gmail.com Jane Doe authenticated (Success)’ 

>>> imapO0bj.select folder('INBOX', readonly=True) 

>>> UIDs = imap0bj.search(['SINCE 05-Jul-2014']) 

>>> UIDs 
[40032，40033，40034，40035，40036，40037，40038，40039，40040，40041] 
>>> rawMessages = imapObj.fetch([40041], ['BODY[]', 'FLAGS']) 

>>> import pyzmail 

>>> message = pyzmail.PyzMessage.factory(rawMessages[40041]['BODY[]']) 
>>> message.get subject() 

'Hello!' 

>>> message.get addresses('from') 

[('Edward Snowden', 'esnowden@nsa.gov')] 

>>> message.get addresses('to') 

[(Jane Doe', 'jdoe@example.com')] 

>>> message.get addresses('cc') 

[] 

>>> message.get addresses('bcc') 

[] 

>>> message.text part != None 

True 

>>> message.text part.get payload().decode(message.text part.charset) 
'Follow the money.\r\n\r\n-Ed\r\n’ 

>>> message.html part != None 

True 

>>> message.html part.get payload().decode(message.html part.charset) 
‘<div dir="ltr"><div>So long, and thanks for all the fish!<br><br></div>- 
Al<br></div>\r\n’ 

>>> imapO0bj.logout() 


你 不 必 记 住 这 些 步 又 。 在 详细 介绍 每 一 步 之 后 , 你 可 以 





























来 看 这 个 概述 ,加强 记 忆 。 





16.4.1 连接 到 IMAP 服务 器 
就 像 你 需要 一 个 SMTP 对 象 连接 到 SMTP 服务 器 并 发 送 电子 邮件 一 样 ， 你 需要 
一 个 IMAPClient 对 象 ， 连 接 到 IMAP 服务 器 并 接收 电子 邮件 。 首 先 ， 你 需要 电子 
邮件 服务 提供 商 的 IMAP 服务 器 域名 。 这 和 SMTP 服务 器 的 域名 不 同 。 表 16-2 列 
出 了 几 个 流行 的 电子 邮件 服务 提供 商 的 IMAP 服务 器 。 


表 16-2 电子 邮件 提供 商 及 其 IMAP 服务 器 



























































提供 商 IMAP 服务 器 域名 
Gmail imap.gmail.com 
Outlook.com/Hotmail.com imap-mail.outlook.com 
Yahoo Mail imap.mail.yahoo.com 
AT&T imap.mail.att.net 
Comcast imap.comcast.net 
Verizon incoming.verizon.net 

















得 到 IMAP 服务 器 域名 后 , 


| 


用 imapclientIMAPClientO 函 数 , 创建 一 个 IMAPClient 
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对 象 。 大 多 数 电 子 邮件 提供 商 要 求 SSL 加 密 ， 传 入 SSL= TRUE 关键 字 参 数 。 在 交 




















互 式 环境 中 输入 以 下 代码 (使 用 你 的 提供 商 的 域名 ): 


>>> import imapclient 
>>> imap0bj = imapclient.IMAPClient('imap.gmail.com', ssl=True) 

















在 接 下 来 的 小 节 里 所 有 交互 式 环境 的 例子 中 ,imapObj 变量 将 包含 imapclient IMAPClient0 
函数 返回 的 IMAPClient 对 象 。 在 这 里 ， 客 户 端 是 连接 到 服务 器 的 对 象 。 





























16.4.2 ”登录 到 IMAP 服务 器 




















取得 IMAPClient 对 象 后 ， 调 用 它 的 login0 方 法 ， 传 入 ) 























j 户 名 《这 通常 是 你 的 
































外 子 邮 件 地 址 ) 和 密码 字符 串 。 





>>> imapObj.login('my_ email address@gmail.com', MY _ SECRET PASSWORD ' ) 


'my_email address@gmail.com Jane Doe authenticated (Success) 











要 记 住 ， 永 远 不 要 直接 在 代码 中 写 入 密码 ! 应 该 让 程序 从 inputO 接 受 输入 的 密码 。 
如 果 IMAP 服务 器 拒绝 用 户 名 /密码 的 组 合 ，Python 会 抛 出 imaplib.error 异常 。 










































































对 于 Gmail 账户 ， 你 可 能 需要 使 用 应 用 程序 专用 的 密码 。 详 旨 




















言 息 请 参阅 16.2.5 节 

















中 的 “Gmail 应 用 程序 专用 密码 ”。 





16.4.3 ”搜索 电子 邮件 




















登录 后 ， 实 际 获取 你 感 兴趣 的 电子 邮件 分 为 两 步 。 首 先 ， 必 须 选 择 要 搜索 的 文件 



































夹 。 然 后， 必须 调用 IMAPClient 对 象 的 search0 方 法 ， 传 入 IMAP 搜索 关键 词 字符 串 。 


16.4.4 选择 文件 夹 
































几乎 每 个 账户 默认 都 有 一 个 INBOX 文件 夹 , 但 也 可 以 调用 











IMAPClient 对 象 的 




















list_folders() 方 法 ， 获 取 文 件 夹 列表 。 这 将 返回 一 个 元 组 的 列表 。 每 个 元 组 包含 一 个 


























文件 夹 的 信息 。 输 入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 


>>> import pprint 
>>> pprint.pprint(imapObj.1list folders()) 


[(('\\HasNoChildren',), '/', 'Drafts'), 
(('\\HasNoChildren',), '/', 'Filler'), 
(('\\HasNoChildren',), '/', 'INBOX'), 
(('\\HasNoChildren',), '/', 'Sent'), 

--SNip-- 

(('\\HasNoChildren', '\\Flagged'), '/', '[Gmail]/Starred'), 


(('\\HasNoChildren', '\\Trash'), '/', '[Gmail]/Trash')] 


如 果 你 有 一 个 Gmail 账户 ， 这 就 是 输出 可 能 的 样子 “Gmail 




















将 文件 夹 称 为 label， 


但 它们 的 工作 方式 与 文件 夹 相同 )。 每 个 元 组 的 三 个 值 ， 例 如 ((NHasNoChildren',)，V， 








'TINBOX'”)， 人 解释 如 下 : 


























。 该 文件 夹 的 标志 的 元 组 〈 这 些 标志 代表 到 底 是 什么 超出 了 本 书 的 讨论 范围 ,你 
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可 以 放心 地 忽略 该 字段 )。 
。 名 称 字 符 串 中 用 于 分 隔 父 文件 夹 和 子 文件 夹 的 分 隔 符 。 
。 该 文件 夹 的 全 名 。 
要 选择 一 个 文件 夹 进行 搜索 , 就 调用 IMAPClient 对 象 的 select_folder0 方 法 , 传 入 
该 文件 夹 的 名 称 字符 串 。 





>>> imap0bj.select folder('INBOX', readonly=True) 


可 以 忽略 select_folder0 的 返回 值 。 如 


imaplib.error 异常 。 


16.4.5 ”执行 


readonly=True 关键 字 参 数 可 以 防 
该 文件 夹 中 的 任何 电子 邮 伯 


个 好 主意 。 


搜索 








果 所 选 文 伯 

















F。 除 非 你 想 











文件 夹 选 








后 ， 就 可 以 





























删除 的 电子 邮件 ， 





上 你 在 随后 的 方法 调 / 


F 夹 不 存在 ，Python 会 抛 上 














] 中 » 不 小 心 
否则 将 readonly 























更 改 或 删除 


设置 为 True 























] IMAPClient 对 象 的 search0 方 法 搜索 电子 邮件 。searchO 


村 











的 参数 是 一 个 字符 串 列表 , 每 一 个 格式 化 为 IMAP 搜索 键 。 表 16-3 介绍 了 
表 16-3 IMAP 搜索 键 





种 搜索 键 











Fo 














































































































































































































































































































































































































































































































































































































搜索 键 含义 

'ALL 返回 该 文件 夹 中 的 所 有 邮件 。 如 果 你 请 求 一 个 大 文件 夹 中 的 所 有 消息 ， 可 能 会 遇 到 
imaplib 的 大 小 限制 。 参 见 16.4.6 小 节 “ 大 小 限制 ” 

BEFORE date,, 这 三 个 搜索 键 分 别 返 回 给 定 date 之 前 、 当 天 和 之 后 IMAP 服务 器 接收 的 消息 。 日 期 的 

'ON date,, 格式 必须 像 05-Jul-2015。 此 外 ， 虽 然 'SINCE 05-Jul-2015' 将 匹配 7 月 5 日 当天 和 之 后 的 

'SINCE date' 消息 ， 但 BEFORE 05-Jul-2015' 仅 匹配 7 月 5 日 之 前 的 消息 ， 不 包括 7 月 5 日 当天 

'SUBJECT string'， ”分 别 返回 string 出 现在 主题 、 正 文 、 主 题 或 正文 中 的 消息 。 如 果 string 中 有 空格 ， 就 

BODY string', 使 用 双 引 号 : 'TEXT "search with spaces" 

TEXT string' 

FROM string', 返回 所 有 消息 ， 其 中 string 分 别 出 现 在 “from” 邮 件 地 址 ,“to” 邮 件 地 址 ,“cc”( 抄 

'TO string', 送 ) 地 址 ， 或 “bcc”( 密 件 抄 送 ) 地 址 中 。 如 果 string 中 有 多 个 电子 邮件 地 址 ， 就 

'CC string', 空格 将 它们 分 开 ， 并 使 用 双 引 号 : "CC "firstcc@example.com 

'BCC string' secondcc@example.com"™ 

'SEEN,, 分 别 返 回 包 含 和 不 包含 \ Seen 标记 的 所 有 信息 。 如果 电 子 邮件 已 经 被 fetch() 方 法 调 

'UNSEEN' 访问 ( 稍 后 描述 ), 或 者 你 曾 在 电子 邮件 程序 或 网 络 浏览 器 中 点 击 过 它 , 就 会 有 \ Seen 
标记 。 比 较 常 用 的 说 法 是 电子 邮件 “已 读 ”， 而 不 是 “已 看 ” 但 它们 的 意思 一 样 。 

ANSWERED 分 别 返回 包含 和 不 包含 \Answered 标记 的 所 有 消息 。 如 果 消 息 已 答复 ， 就 会 有 \ 

'UNANSWERED' Answered 标记 

'DELETED,, 分 别 返 回 包含 和 不 包含 \Deleted 标记 的 所 有 信息 。 用 delete_messages() 方 法 删除 的 邮件 就 会 

'UNDELETED' 有 \Deleted 标记 , 直到 调用 expunge() 方 法 才 会 永久 删除 (请 参阅 16.4.10 说 “删除 电子 邮件 ”)。 
请 注意 ， 一 些 电 子 邮件 提供 商 ， 例 如 Gmail， 会 自动 清除 邮件 

DRAFT， 分 别 返回 包含 和 不 包含 \ Draft 标记 的 所 有 消息 。 草 稿 邮件 通常 保存 在 单独 的 草稿 文 

'UNDRAFT' 件 夹 中 ， 而 不 是 在 收 件 箱 中 
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续 表 





















































搜索 键 含义 

'FLAGGED,, 分 别 返 回 包 含 和 不 包含 \Flagged 标记 的 所 有 消息 。 这 个 标记 通常 用 来 标记 电子 邮件 
'UNFLAGGED' 为 “重要 ”或 “紧急 ” 

'LARGER N， 分 别 返 回 大 于 或 小 于 N 个 字 节 的 所 有 消息 

'SMALLER N' 





NOT search-key 返回 搜索 键 不 会 返回 的 那些 消息 
'OR search-keyl 返回 符合 第 一 个 或 第 二 个 搜索 键 的 消息 
search-key2' 
请 注意 ， 在 处 理 标志 和 搜索 键 方面 ， 某 些 IMAP 服务 器 的 实现 可 能 稍 有 不 同 。 
可 能 需要 在 交互 式 环 境 中 试验 一 下 ， 看 看 它们 实际 的 行为 如 何 。 

在 传 入 search() 方 法 的 列表 参数 中 ， 可 以 有 多 个 IMAP 搜索 键 字符 串 。 返 回 的 
消息 将 匹配 所 有 的 搜索 键 。 如 果 想 匹配 任何 一 个 搜索 键 , 使 用 OR 搜索 键 。 对 于 NOT 
和 OR 搜索 键 ， 它 们 后 边 分 别 跟着 一 个 和 两 个 完整 的 搜索 键 。 

下 面 是 search() 方 法 调用 的 一 些 例子 ， 以 及 它们 的 含义 : 

imapObj.search(['ALL']) 返回 当前 选 定 的 文件 夹 中 的 每 一 个 消息 。 

imapObj.search(['ON 05-Jul-2015"]) 返 回 在 2015 年 7 月 5 日 发 送 的 每 个 消息 。 

imapObj.search(['SINCE 01-Jan-2015', '"BEFORE 01-Feb-201S'，'UNSEEN ']) 
返回 2015 年 1 月 发 送 的 所 有 未 读 消息 (注意 ， 这 意味 着 从 1 月 1 日 直到 2 月 1 日 ， 
但 不 包括 2 月 1 日 )。 

imapObj.search(['SINCE 01-Jan-2015'，'FROM alice@example.com' 小 返回 自 
2015 年 开始 以 来 ， 发 自 alice@example.com 的 消息 。 

imapObj.search(['SINCE 01-Jan-2015', 'NOT FROM alice@example.com']) 返 
自 2015 年 开始 以 来 ， 除 alice@example.com 外 ， 其 他 所 有 人 发 来 的 消息 。 
imapObj.search(['OR FROM alice@example.com FROM bob@example.com']) 

返回 发 自 alice@example.com 或 bob@example.com 的 所 有 信息 。 

imapObj.search(['FROM alice@example.com', 'FROM bob@example.com']) 
恶作剧 例子 ! 该 搜索 不 会 返回 任何 消息 ， 因 为 消息 必须 匹配 所 有 搜索 关键 词 。 因 为 
只 能 有 一 个 “from” 地 址 ， 所 以 一 条 消息 不 可 能 既 来 自 alice@example.com， 又 来 自 
bob@example.com。 

search() 方 法 不 返回 电子 邮件 本 身 ， 而 是 返回 邮件 的 唯一 整数 ID 〈UID )。 然 后 ， 
可 以 将 这 些 UID 传 入 fetch() 方 法 ， 获 得 邮件 内 容 。 

输入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 


>>> UIDs = imap0bj.search(['SINCE 05-Jul-2015']) 
>>> UIDs 
[40032，40033，40034，40035，40036，40037，40038，40039，40040，40041] 


这 里 ,search0 返 回 的 消息 ID 列表 (针对 7 月 5 日 以 来 接收 的 消息 ) 保存 在 UIDs 
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中 。 计 算 机 上 返回 的 UIDs 列表 与 这 里 显示 的 不 同 ， 它 们 对 于 特定 的 电子 邮件 账户 
是 唯一 的 。 如 果 你 稍 后 将 UID 传递 给 其 他 函数 调用 ， 请 用 你 收 到 的 UID 值 ， 而 不 
是 本 书 例子 中 打印 的 。 





16.4.6 ”大 小 限制 
如 果 你 的 搜索 匹配 大 量 的 电子 邮件 ，Python 可 能 抛 出 异常 imaplib.error: got 
more than 10000bytes。 如 果 发 生 这 种 情况 ， 必 须 断 开 并 重 连 IMAP 服务 器 ， 然 后 再 试 。 
这 个 限制 是 防止 Python 程序 消耗 太 多 内 存 。 遗 憾 的 是 ， 默 认 大 小 限制 往往 太 小 。 
可 以 执行 下 面 的 代码 ， 将 限制 从 10000 字 节 改 为 10000000 字 节 : 


>>> import imaplib 
>>> imaplib. MAXLINE = 10000000 


这 应 该 能 避免 该 错误 消息 再 次 出 现 。 也 许 要 在 你 写 的 每 一 个 IMAP 程序 中 加 上 
这 两 行 。 


























16.4.7 取 邮 件 并 标记 为 已 读 
得 到 UID 的 列表 后 ， 可 以 调用 IMAPClient 对 象 的 fetch0 方 法 ， 获 得 实际 的 电 
子 邮 件 内 容 。 
UID 列表 是 fetch0 的 第 一 个 参数 。 第 二 个 参数 应 该 是 [BODY[]], 它 告诉 fetchO 
下 载 UID 列表 中 指定 电子 邮件 的 所 有 正文 内 容 。 


使 用 IMAPClient 的 gmail_search() 方 法 
如 果 登 录 到 imap.gmail.com 服务 器 来 访问 Gmail 账户 ，IMAPClient 对 象 提供 了 
一 个 额外 的 搜索 函数 , 模拟 Gmail 网 页 顶部 的 搜索 栏 , 如 图 16-1 中 高 亮 的 部 分 所 示 。 














| search terms go herel 





图 16-1 在 Gmail 网 页 顶部 的 搜索 栏 
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除了 用 IMAP 搜索 键 搜索 ， 可 以 使 用 Gmail 更 先进 的 搜索 引擎 。Gmail 在 匹 
配 密 切 相关 的 单词 方面 做 得 很 好 ( 例如， 搜索 driving 也 会 匹配 drive 和 drove )， 
并 按照 匹配 的 程度 对 搜索 结果 排序 。 也 可 以 使 用 Gmail 的 高 级 搜索 操作 符 (更 多 
信息 请 参见 http://mostarch.com/automatestuff/ )。 如 果 登 录 到 Gmail 账户 ， 向 
gmail_ search0) 方 法 传 入 搜索 条 件 , 而 不 是 search() 方 法 , 就 像 下 面 交 互 式 环境 的 例子 : 


>>> UIDs = imapObj.gmail search('meaning of life') 
>>> UIDs 
[42] 


啊 ， 是 的 ， 那 封 电子 邮件 包含 了 生命 的 意义 ! 我 一 直 在 期 待 。 
让 我 们 继续 交互 式 环境 的 例子 。 


>>> rawMessages = imap0bj.fetch(UIDs，['BODY[]']) 

>>> import pprint 

>>> pprint.pprint(rawMessages) 

{40040: {'BODY[]': 'Delivered-To: my email address@gmail.com\r\n' 
'Received: by 10.76.71.167 with SMTP id ' 





--SNip-- 


'SEQ': 5430}} 


导入 pprint， 将 fetch0 的 返回 值 ( 保 存在 变量 rawMessages 中 ) 传 入 pprintpprint()， 
“漂亮 打印 ” 它 。 你 会 看 到 ， 这 个 返回 值 是 消息 的 咀 套 字典 ， 其 中 以 UID 作为 键 。 
每 条 消息 都 保存 为 一 个 字典 ,包含 两 个 键 : BODY[]' 和 'SEQ'。BODY[] 键 映射 到 电子 
邮件 的 实际 正文 。'SEQ' 键 是 序列 号 ， 它 与 UID 的 作用 类 似 。 你 可 以 放心 地 忽略 它 。 

正如 你 所 看 到 的 ， 在 BODY[] 键 中 的 消息 内 容 是 相当 难 理解 的 。 这 种 格式 称 头 
RFC822， 是 专 为 IMAP 服务 器 读 取 而 设计 的 。 但 你 并 不 需要 理解 RFC 822 格式 ， 本 章 
稍 后 的 pyzmail 模块 将 替 你 来 理解 它 。 

如 果 你 选择 一 个 文件 夹 进行 搜索 ， 就 用 readonly=True 关键 字 参 数 来 调用 select_ 
folder()。 这 样 做 可 以 防止 意外 删除 电子 邮件 ， 但 这 也 意味 着 你 用 fetch0 方 法 获取 邮 
件 时 ， 它 们 不 会 标记 为 已 读 。 如 果 确 实 希望 在 获取 邮件 时 将 它们 标记 已 读 ， 就 需要 
将 readonly=False 传 入 select_folder()。 如 果 所 选 文件 夹 已 处 于 只 读 模 式 ， 可 以 用 另 
一 个 select_folderO 调 用 重新 选择 当前 文件 夹 ， 这 次 用 readonly=False 关键 字 参 数 : 


>>> imap0bj.select folder('INBOX', readonly=False) 





| 












































































































































rm 
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16.4.8 ”从 原始 消息 中 获取 电子 邮件 地 址 
对 于 只 想 读 邮件 的 人 来 说 ，fetch0 方 法 返回 的 原始 消息 仍然 不 太 有 用 。pyzmail 
模块 解析 这 些 原始 消息 , 将 它们 作为 PyzMessage 对 象 返 回 , 使 邮件 的 主题 、 正 文 “ 收 

件 人 ”字段 、“ 发 件 人 ”字段 和 其 他 部 分 能 用 Python 代码 轻松 访问 。 
用 下 面 的 代码 继续 交互 式 环境 的 例子 (使 用 你 自己 的 邮件 账户 的 UID， 而 不 是 
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这 里 显示 的 ): 


>>> import pyzmail 
>>> message = pyzmail.PyzMessage.factory(rawMessages[40041]['BODY[]']) 


首先 ， 导 入 pyzmail。 然 后 ， 为 了 创建 一 个 电子 邮件 的 PyzMessage 对 象 ， 调 用 
pyzmail.PeekMessage.factory() 函 数 ， 并 传 入 原始 邮件 的 BODY[]' 部 分 。 结 果 保 存在 
message 中 。 现 在 ，message 中 包含 一 个 PyzMessage 对 象 ， 它 有 几 个 方法 ， 可 以 很 
容易 地 获得 的 电子 邮件 主题 行 ， 以 及 所 有 发 件 人 和 收 件 人 的 地 址 。get_subject0 方 法 
将 主题 返回 为 一 个 简单 字符 串 。get_addresses() 方 法 针对 传 入 的 字段 ， 返回 一 个 地 址 
列表 。 例 如 ， 该 方法 调用 可 能 像 这 样 : 


>>> message.get subject() 

'Hello!' 

>>> message.get addresses('from') 
[('Edward Snowden', 'esnowden@nsa.gov')] 
>>> message.get addresses('to') 

[(Jane Doe', 'my email address@gmail.com' 
>>> message.get addresses('cc') 

[] 

>>> message.get addresses('bcc') 

[] 


























上 




















































































































— 





请 注意 ，get_addresses() 的 参数 是 'from'"、'to'、'cc' 或 'bcc'。get_addresses0) 的 返回 值 
是 一 个 元 组 列表 。 每 个 元 组 包含 两 个 字符 串 : 第 一 个 是 与 该 电子 邮件 地 址 关联 的 名 称 ， 
第 二 个 是 电子 邮件 地 址 本 身 。 如 果 请 求 的 字段 中 没有 地 址 ，getaddresses0 返 回 一 个 空 
列表 。 在 这 里 ，'cc 抄 送 和 "bcc 密 件 抄 送 字段 都 没有 包含 地 址 ， 所 以 返回 空 列 表 。 































































































16.4.9 从 原始 消息 中 获取 正文 
电子 邮件 可 以 是 纯 文本 、HTML 或 两 者 的 混合 。 纯 文本 电子 邮件 只 包含 文本 ， 而 
HTML 电子 邮件 可 以 有 颜色 、 字 体 、 图 像 和 其 他 功能 ， 使 得 电子 邮件 看 起 来 像 一 个 小 
网 页 。 如 果 电 子 邮 件 仅仅 是 纯 文本 , 它 的 PyzMessage 对 象 会 将 html_part 属性 设 为 None。 
同样 ， 如 果 电 子 邮件 只 是 HTML， 它 的 PyzMessage 对 象 会 将 text_part 属性 设 为 None。 
否则 ，text_part 或 html_part 将 有 一 个 get_payload0 方 法 ， 将 电子 邮件 的 正文 返 
为 bytes 数据 类 型 (bytes 数据 类 型 超出 了 本 书 的 范围 )。 但 是 ， 这 仍然 不 是 我 
们 可 以 使 用 的 字符 串 。 啊 ! 最 后 一 步 对 get payload0 返 回 的 bytes 值 调 用 decode() 
方法 。decode() 方 法 接受 一 个 参数 : 这 条 消息 的 字符 编码 ， 保 存在 text_part.charset 
或 html_part.charset 属性 中 。 最 后 ， 这 返回 了 邮件 正文 的 字符 串 。 

输入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 ; 


© >>> message.text part != None 
True 


>>> message.text part.get payload().decode(message.text part.charset) 


























































































































芋 | 































































































@ 'So long, and thanks for all the fish!\r\n\r\n-Al\r\in’ 
© >>> message.html part != None 
True 
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@ >>> message.html part.get payload().decode(message.html part.charset) 
‘<div dir="ltr"><div>So long, and thanks for all the fish!<br><br></div>-Al 


<br></div>\r\ 


n' 





























我 们 正在 处 理 的 电子 邮件 包含 纯 文 本 和 HTML 内 容 , 因此 保存 在 message 中 的 
PyzMessage 对 象 的 text_part 和 html_part 属性 不 等 于 NoneO@@。 对 消息 的 text_part 
调用 get_payload0， 然 后 在 bytes 值 上 调用 decode0， 返 回电 子 邮件 的 文本 版 本 的 字 
符 串 @。 对 消息 的 html_part 调用 get payload0 和 decode0， 返 回电 子 邮件 的 HTML 
版 本 的 字符 串 @。 



















































































16.4.10 ”删除 电子 邮件 








要 删除 ! 











有 子 邮 件 ， 就 向 IMAPClient 对 象 的 delete_messages() 方 法 传 入 一 个 消息 




















UID 的 列表 。 

















这 为 电子 邮件 加 上 \Deleted 标志 。 调 用 expunge0 方 法 ， 将 永久 删除 当前 























选中 的 文件 夹 中 带 \Deleted 标志 的 所 有 电子 邮件 。 请 看 下 面 的 交互 式 环境 的 例子 : 


© >>> imap0bj.s 






































elect folder('INBOX', readonly=False) 


@ >>> UIDs = imap0bj.search(['ON 09-Jul-2015']) 


>>> UIDs 
[40066] 


>>> imapO0bj.delete messages(UIDs) 
©@ {40066: ('\\Seen', '\\Deleted')} 
>>> imap0bj.expunge() 


('Success', 




















[(5452， 'EXISTS')]) 








这 里 ， 我 们 调用 了 IMAPClient 对 象 的 select_folder0 方 法 ， 传 入 TNBOX' 作 为 第 
一 个 参数 ， 选 择 了 收 件 箱 。 我 们 也 传 入 了 关键 字 参 数 readonly=False， 这 样 我 们 就 
































可 以 删除 电子 邮件 @。 我 们 搜索 收 件 箱 中 的 特定 日 期 收 到 的 消息 ， 将 返回 的 消息 ID 保 
存在 UIDs 中 四。 调用 delete_message0 并 传 入 UIDs， 返 回 一 个 字典 ， 其 中 每 个 键 值 对 





是 一 个 消息 


expunge0， 永 和 久 删 除 带 \Deleted 标志 的 邮件 。 如 果 清 除 邮件 没有 问题 ， 就 返回 一 条 成 功 
信息 。 请 注意 ， 一 些 电 子 邮件 提供 商 ， 如 Gmail， 会 自动 清除 用 | 除 




















的 电子 邮件 ， 






























































ID 和 消息 标志 的 元 组 ， 它 现在 应 该 包含 \Deleted 标志 日 。 ] 
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而 不 是 等 待 来 自 IMAP 客户 端的 expunge 命令 。 


16.4.11 ”从 IMAP 服务 器 断 开 
如 果 程 序 已 经 完成 了 获取 和 删除 电子 邮件 ， 就 调用 IMAPClient 的 logout0 方 法 ， 
从 IMAP 服务 器 断 开 连接 。 


>>> imapO0bj.1logout() 


如 果 程 序 运 行 了 几 分 钟 或 更 长 时 间 ，IMAP 服务 器 可 能 会 超时 ， 或 自动 断 开 。 在 











这 种 情况 下 ， 


imaplib.abort: 









































接 下 来 程序 对 IMAPClient 对 象 的 方法 调用 会 抛 出 异常 ， 像 下 下 


socket error: [WinError 10054] An existing connection was 


这 样 : 

















forcibly closed by the remote host 
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在 这 种 情况 下 ， 程 序 必 须 调 
哟 ! 齐 活 了 。 要 跳 过 很 多 
邮件 账户 ， 并 获取 电子 邮件 。 

















获取 和 删除 电子 邮件 ” 
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16.5 
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需要 回 






































项 目 : 向 会 员 发 送 会 费 提醒 电子 邮件 





















































































































































| imapclient.IMAPClient()， 再 次 连接 。 
圈 , 但 你 现在 有 办 法 让 Python 程序 登录 到 一 个 电子 
忆 所 有 步骤 时 ， 你 可 以 随时 参考 16.4 节 “ 用 

















IMAP 











假定 你 一 直 “ 自 愿 ” 为 “强制 自愿 俱乐部 ”记录 会 员 会 费 。 这 确实 是 一 项 枯燥 
的 工作 ， 包 括 维护 一 个 电子 表格 ， 记 录 每 个 月 谁 交 了 会 费 ， 并 用 电子 邮件 提醒 那些 
没 交 的 会 员 。 不 必 你 自己 查看 电子 表格 ， 而 是 向 会 费 超期 的 会 员 复制 和 粘贴 相同 的 
电子 邮件 。 你 猜 对 了 ， 让 我 们 编写 一 个 脚本 ， 帮 你 完成 任务 。 
在 较 高 的 层面 上 ， 下 面 是 程序 要 做 的 事 : 
。 从 Excel 电子 表格 中 读 取 数据 。 
。 找 出 上 个 月 没有 交 费 的 所 有 会 员 。 
。 找到 他 们 的 电子 邮件 地 址 ， 向 他 们 发 送 针 对 个 人 的 提醒 。 
这 意味 着 代码 需要 做 到 以 下 几 点 : 
。 用 openpyxl 模块 打开 并 读 取 Excel 文档 的 单元 格 (处 理 Excel 文件 参见 第 12 章 )。 
。 创建 一 个 字典 ， 包 含 会 费 超期 的 会 员 。 
。 调用 smtplib.SMTPO、ehlo0、startttsO0 和 login()， 登 录 SMTP 服务 器 。 
。 针对 会 费 超期 的 所 有 会 员 ， 调 用 sendmail0 方 法 ， 发 送 针 对 个 人 的 电子 邮件 提醒 。 








打开 一 个 新 的 文件 编辑 器 窗口 


第 1 步 : 打开 Excel 文件 


假定 用 来 记录 会 费 文 付 的 Excel 电子 表格 看 起 来 如 




















， 并 保存 为 sndDuesReminders.py。 





图 16-2 所 示 ， 放 在 名 为 


duesRecords.xlsx 的 文件 中 。 可 以 从 http://nostarch.com/automatestuff/ 下 载 该 文件 。 

















Member_ IEmail 


D 


E 


Jan 2014 Feb 2014 Mar2014 Apr2014 





May 2014 Jun 2014 


G 


、 
2 Alice alice@example.com paid paid paid paid paid 
3 |Bob bob@example.com paid paid paid paid 
4 |Carol carol@example.com paid paid paid paid paid paid 
5 David david@example.com paid paid paid paid paid paid 
6 |Eve eve@example.com paid paid paid 
7 |Fred fred@example.com paid paid paid paid paid paid 
8 
9 
M 4 中 | Sheetl .各 dl 加 
Ready | 四 轩 回 100% (—) 
Sn 己 
16-2 ”记录 会 员 会 费 支 付 电 子 表格 
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OD 











Q@e 


Go 





























该 电子 表格 中 包含 每 个 成 员 的 姓名 和 电子 邮件 地 址 。 每 个 月 有 一 列 ， 记 录 会 员 
的 付款 状态 。 在 成 员 交 纳 会 费 后 ， 对 应 的 单元 格 就 记 为 paid。 

该 程序 必须 打开 duesRecords.xlsx， 通 过 调用 get_highest_column0 〇 方法， 弄 清楚 
最 近 一 个 月 的 列 〈 可 以 参考 第 12 章 ， 了 解 用 openpyxl 模块 访问 Excel 电子 表格 文 
件 单元 格 的 更 多 信息 )。 在 文件 编辑 器 窗口 中 输入 以 下 代码 : 


#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 








































































































import openpyxl, smtplib, sys 

# Open the spreadsheet and get the latest dues status. 
wb = openpyx1.1oad workbook('duesRecords.xlsx') 

sheet = wb.get sheet by name('Sheet1') 


lastCol = sheet.get highest column() 
latestMonth = sheet.cell(row=1, column=lastCol1).value 


# TODO: Check each member's payment status. 

# TODO: Log in to email account. 

# TODO: Send out reminder emails. 

导入 openpyxl、smtplib 和 sys 模块 后 ， 我 们 打开 duesRecords.xlsx 文件 ， 将 得 
到 的 Workbook 对 象 保存 在 wb 中 @。 人 然后， 取得 Sheet 1， 将 得 到 的 Worksheet 对 象 
保存 在 sheet 中 四 。 既 然 有 了 Worksheet 对 象 ， 就 可 以 访问 行 、 列 和 单元 格 。 我 们 将 
最 后 一 列 保存 在 lastCol 中 @@， 然 后 用 行 号 1 和 lastCol 来 访问 应 该 记录 着 最 近 月 份 
的 单元 格 。 取 得 该 单元 格 的 值 ， 并 保存 在 latestMonth 中 @。 
















































































第 2 步 : 查找 所 有 未 付 成 员 


0 


© 
© 
9 
© 














旦 确定 了 最 近 一 个 月 的 列 数 ( 保 存在 lastCol 中 ), 就 可 以 循环 遍历 第 一 行 (这 
是 列 标题 ) 之 后 的 所 有 行 ， 看 看 哪些 成 员 在 该 月 会 费 的 单元 格 中 写 着 paid。 如 果 会 
员 没 有 支付 ， 就 可 以 从 列 1 和 2 中 分 别 抓 取 成 员 的 姓名 和 电子 邮件 地 址 。 这 些 信息 
将 放 入 unpaidMembers 字典 ， 它 记录 最 近 一 个 月 没有 交 费 的 所 有 成 员 。 将 以 下 代码 
添加 到 sendDuesReminderpy 中 。 































































































#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 


--SNip-- 


# Check each member's payment status. 
unpaidMembers = {} 
for r in range(2, sheet.get highest row() + 1): 
payment = sheet.cell(row=r, column=lastCo01).value 
if payment != 'paid': 
name = sheet.cell(row=r, column=1) .value 
email = sheet.cell(row=r, column=2) .value 
unpaidMembers[name] = email 
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这 段 代码 设置 了 一 个 空 字典 unpaidMembers， 然 后 循环 遍历 第 一 行 之 后 所 有 的 行 目 。 
对 于 每 一 行 ， 最 近 月 份 的 值 保存 在 payment 中 四 。 如 果 payment 不 等 于 'paid'"， 则 第 
一 列 的 值 保存 在 name 中 @@， 第 二 列 的 值 保存 在 email 中 @，name 和 email 添加 到 
unpaidMembers ©. 












































第 3 步 : 发 送 定制 的 电子 邮件 提醒 
得 到 所 有 未 付费 成 员 的 名 单 后， 就 可 以 向 他 们 发 送 电 子 邮 件 提醒 了 。 将 下 面 的 
代码 添加 到 程序 中 ， 但 要 代入 你 的 真实 电子 邮件 地 址 和 提供 商 的 信息 : 


#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 





























--SNip-- 


# Log in to email account. 

smtp0bj = smtplib.SMTP('smtp.gmail.com', 587) 

smtp0bj.ehlo() 

smtp0bj.starttls() 

smtp0bj.login('my_email address@gmail.com', sys.argv[1]) 

调用 smtplib.SMTPO 并 传 入 提供 两 的 域名 和 端口 ， 创 建 一 个 SMTP 对 象 。 调 用 
ehlo() 和 starttls()， 然 后 调用 login0， 并 传 入 你 的 电子 邮件 地 址 和 sys.argv[1]， 其 中 
保存 着 你 的 密码 字符 串 。 在 每 次 运行 程序 时 ， 将 密码 作为 命令 行 参数 输入 ， 避 免 在 
源 代码 中 保存 密码 。 
程序 登录 到 你 的 电子 邮件 账户 后 ， 就 应 该 遍历 unpaidMembers 字典 ， 向 每 个 会 员 的 
电子 邮件 地 址 发 送 针 对 个 人 的 电子 邮件 。 将 以 下 代码 添加 到 sendDuesReminders.py: 


#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 















































































































































--SNip-- 


# Send out reminder emails. 
for name, email in unpaidMembers.items(): 

0 body = "Subject: %s dues unpaid.\nDear %s,\nRecords show that you have not 
paid dues for %s. Please make this payment as soon as possible. Thank you!'" % 
(latestMonth, name, latestMonth) 


© print('Sending email to %s...' % email) 
© sendmailStatus = smtpObj.sendmail('my email address@gmail.com', email, body) 
[49 if sendmailStatus != {}: 


print('There was a problem sending email to %s: %s' % (email, 
sendmailStatus)) 
smtp0Obj .quit() 
这 段 代 码 循环 遍历 unpaidMembers 中 的 姓名 和 电子 邮件 。 对 于 每 个 没有 付费 
成 员 ， 我 们 用 最 新 的 月 份 和 成 员 的 名 称 ， 定 制 了 一 条 消息 ， 并 保存 在 body 中 @。 
们 打印 输出 ， 表 示 正 在 向 这 个 会 员 的 电子 邮件 地 址 发 送 电 子 邮 件 @。 然 后 调用 

























































































318 ”Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 





sendmail()， 辣 它 传 入 地 址 和 定制 的 消息 @。 返 回 值 保存 在 sendmailStatus 中 。 

可 忆 一 下 , 如果 SMTP 服务 器 在 发 送 某 个 电子 邮件 时 报告 错误 , sendmail0) 方 法 
将 返回 一 个 非 空 的 字典 值 。for 循环 最 后 部 分 在 @ 行 检查 返回 的 字典 是 否 非 空 ， 如 果 
非 空 ， 则 打印 收 件 人 的 电子 邮件 地 址 以 及 返回 的 字典 。 

程序 完成 发 送 所 有 电子 邮件 后 ， 调 用 quit0 方 法 ， 与 SMTP 服务 器 断 开 连接 。 

如 果 运 行 该 程序 ， 输 出 会 像 这 样 : 


Sending email to alice@example.com... 
Sending email to bob@example.com... 
Sending email to eve@example.com... 


收 件 人 将 收 到 如 图 16-3 所 示 的 电子 邮件 。 









































































































































~ 


























June 2014 dues unpaid. 
乔 Al Sweigart <asweigart@gmail. com> 


Dear Alice 
Records show that you have not paid dues for June 2014. Please make this payment as soon as possible. Thank you! 








16-3 ”从 sendDuesReminders.py 自动 发 送 的 电子 邮件 


16.6 ”用 Twilio 发 送 短信 


16.6.1 


























大 多 数 人 更 可 能 靠近 自己 的 手机 ， 而 不 是 自己 的 电脑 ， 所 以 与 电子 邮件 相 比 ， 短 信 
发 送 通知 可 能 更 直接 、 可 靠 。 此 外 ， 短 信 的 长 度 较 短 ， 让 人 更 有 可 能 阅读 它们 。 

在 本 节 中 ， 你 将 学 习 如 何 注册 免费 的 Twilio 服务 ， 并 用 它 的 Python 模块 发 送 
短信 。Twilio 是 一 个 SMS 网 关 服 务 , 这 意味 着 它 是 一 种 服务 ,让 你 通过 程序 发 送 短 
信 。 虽 然 每 月 发 送 多 少 短信 会 有 限制 ， 并 且 文 本 前 面 会 加 上 Sent from a Twilio trial 
account， 但 这 项 试用 服务 也 许 能 满足 你 的 个 人 程序 。 免 费 试 用 没有 限期 ， 不 必 以 后 
升级 到 付费 的 套餐 。 

Twilio 不 是 唯一 的 SMS 网 关 服务 。 如 果 你 不 喜欢 使 用 Twilio, 可 以 在 线 搜索 free 
sms gateway、python sms api， 甚 至 twilio alternatives， 寻 找 奉 代 服 务 。 

注册 Twilio 账户 之 前 ， 先 安装 twilio 模块 。 附 录 A 详细 介绍 了 如 何 安装 第 三 方 模块 。 

本 节 特 别针 对 美国 。Twilio 确实 也 在 美国 以 外 的 国家 提供 手机 短信 服务 ， 本 书 
并 不 包括 这 些 细节 。 但 twilio 模块 及 其 功能 ， 在 美国 以 外 的 国家 也 能 用 。 更 多 信息 
请 参见 http://twilio.com/。 



























































































































































































































































注册 Twilio 账号 


























访问 http://twilio.com/ 并 填写 注册 表单 。 注 册 了 新 账户 后 ， 你 需要 验证 一 个 手机 
号 码 ， 短 信 将 发 给 该 号 码 ( 这 项 验证 是 必要 的 ， 防 止 有 人 利用 该 服务 向 任意 的 手机 
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号 码 发 送 垃圾 短信 )。 


在 ， 























两 个 信息 : 你 的 账户 SD 和 AUTH (认证 ) 标志 。 在 登录 Twilio 账户 时 ， 可 以 在 
Dashboard 页 面 上 找到 这 些 信 息 。 从 Python 程序 登录 时 ， 这 些 值 将 作为 你 的 Twilio 
] 户 名 和 密码 。 


























收 到 验证 号 码 短信 后 ， 在 Twilio 网 站 上 输入 它 ， 证 明 你 拥有 要 验证 的 手机 。 现 
就 可 以 用 twilio 模块 向 这 个 电话 号 码 发 送 短信 了 。 
Twilio 提供 的 试用 账户 包括 一 个 电话 号 码 ， 它 将 作为 短信 的 发 送 者 。 你 将 需要 













































































16.6.2 ”发 送 短信 

















且 安 装 了 twilio 模块 , 注册 了 Twilio 账号 ， 验 证 了 你 的 手机 号 码 ， 登 记 了 Twilio 









































有 话 号 码 ， 获 得 了 账户 的 SID 和 auth 标志 ， 你 就 终于 准备 好 通过 Python 脚本 向 你 
自己 发 短信 了 。 
































与 所 有 的 注册 步 又 相 比 ， 实 际 的 Python 代码 很 简单 。 保 持 计 算 机 连接 到 因特网 ， 




















在 交互 式 环境 中 输入 以 下 代码 ， 用 你 的 真实 信息 替换 accountSID 、authToken、 




















myTwilioNumber 和 myCellPhone 变量 的 值 : 


©@ >>> 
ph 
J 
@ >>> 
>>> 
>>> 
© >>> 


from twilio.rest import TwilioRestClient 

accountSID = 'ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 

authToken = “XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 

twilioCli = TwilioRestClient(accountSID, authToken) 

myTwilioNumber = '+14955551234" 

myCellPhone = '+14955558888" 

message = twilioCli.messages.create(body='Mr. Watson - Come here - I want 


to see you.', from =myTwilioNumber, to=myCellPhone) 








键入 最 后 一 行 后 不 久 ， 你 会 收 到 一 条 短信 ， 内 容 为 : Sent from your Twilio trial 


account - Mr. Watson - Come here — I want to See you.。 








因为 twilio 模块 的 设计 方式 ， 导 入 它 时 需要 使 用 from twilio.rest import 


TwilioRestClient， 而 不 仅仅 是 import twilio@。 将 账户 的 SID 保存 在 accountSID ， 认 





























证 标志 保存 在 authToken 中 ， 然 后 调用 TwilioRestClient0， 并 传 入 accountSID 和 











authToken。TwilioRestClientO 调 用 返回 一 个 TwilioRestClient 对 象 @。 该 对 象 有 一 个 
message 属性 ， 该 属性 又 有 一 个 create0 方 法 ， 可 以 用 来 发 送 短 信 。 正 是 这 个 方法 ， 



































将 告诉 Twilio 的 服务 器 发 送 短信 。 将 你 的 Twilio 号 码 和 手机 号 码 分 别 保存 在 




















myTwilioNumber 和 myCellPhone 中 ， 然 后 调用 create0， 传 入 关键 字 参 数 ， 指 明 短 信 的 
y y ( 








正文 、 发 件 人 的 号 码 (myTwilioNumber)， 以 及 收 信人 的 电话 号 码 (myCellPhone) 四 














create() 方 法 返回 的 Message 对 象 将 包含 已 发 送 短信 的 相关 信息 。 输 入 以 下 代码 ， 








继续 交互 式 环境 的 例子 : 


>>> 


message.to 


'+14955558888 


>>> 


message.from 


“+14955551234 
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16.7 


>>> message.body 
'Mr. Watson - Come here - I want to See you.' 


to、from_ 和 body 属性 应 该 分 别 保存 了 你 的 手机 号 码 、Twilio 号 码 和 消息 。 请 
注意 ， 发 送 手机 号 码 是 在 fom_ 属 性 中 ， 末 尾 有 一 个 下 划 线 ， 而 不 是 fom。 这 是 因 
为 fom 是 一 个 Python 关键 字 【〈 例 如 ， 你 在 fom modulename import* 形 式 的 import 语 
句 中 见 过 它 )， 所 以 它 不 能 作为 一 个 属性 名 。 输 入 以 下 代码 ， 继 续 交 互 式 环 境 的 例子 : 


>>> message.status 

"queued ' 

>>> message.date created 
datetime.datetime(2015, 7, 8, 1, 36, 18) 
>>> message.date sent == None 

True 


status 属性 应 该 包含 一 个 字符 串 。 如 果 消 息 被 创建 和 发 送 ，date_created 和 
date_sent 属性 应 该 包含 一 个 datetime 对 象 。 如 果 已 收 到 短信 ， 而 status 属性 却 设置 
为 '/queued'"，date_sent 属性 设置 为 None， 这 似乎 有 点 奇怪 。 这 是 因为 你 先 将 Message 
对 象 记录 在 message 变量 中 , 然后 短信 才 实 际 发 送 。 你 需要 重新 获取 Message 对 象 ， 
查看 它 最 新 的 status 和 date_sent。 每 个 Twilio 消息 都 有 唯一 的 字符 串 ID (SID )， 可 
于 获取 Message 对 象 的 最 新 更 新 。 输 入 以 下 代码 ， 继 续 交 互 式 环 境 的 例子 : 


>>> message.sid 

'SMO09520de7639ba3af137c6fcb7c5f4b51" 

>>> updatedMessage = twilioCli.messages.get(message.sid) 
>>> updatedMessage.status 

"delivered ' 

>>> updatedMessage.date sent 

datetime.datetime(2015, 7, 8, 1, 36, 18) 


输入 message.sid 将 显示 这 个 消息 的 SD。 将 这 个 SID 传 入 Twilio 客户 端的 get0 
方法 @，, 你 可 以 取得 一 个 新 的 Message 对 象 , 包含 最 新 的 信息 。 在 这 个 新 的 Message 
对 象 中 ，status 和 date_sent 属性 是 正确 的 。 

status 属性 将 设置 为 下 列 字 符 串 之 一 : 'queued'、'sending'"、'sent'、'delivered'、 
undelivered' 或 failed'。 这 些 状 态 不 言 自明 ， 但 对 于 更 准确 的 细节 ， 请 查看 http://nostarch. 
comyautomatestufft/ 的 资 小 
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用 Python 接收 短信 
遗憾 的 是 ， 用 Twilio 接收 短信 比 发 送 短信 更 复杂 一 些 。Twilio 需要 你 有 一 个 
网 站 , 运行 自己 的 Web 应 用 程序 。 这 已 超出 了 本 书 的 范围 , 但 你 可 以 在 本 书 的 资 
源 中 找到 更 多 细节 (http://nostarch.com/automatestuff/ )。 


项 目 :“ 只 给 我 发 短信 ”模块 



































记 
最 常用 你 的 程序 发 短信 的 人 可 能 就 是 你 。 当 你 远离 计算 机 时 ， 短 信 征 通知 你 自 
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己 的 好 方式 。 如 果 你 已 经 用 程序 自动 化 了 一 个 无 聊 的 任务 ， 它 需要 运行 几 小 时 ， 你 
可 以 在 它 完成 时 ， 让 它 用 短信 通知 你 。 或 者 可 以 定期 运行 某 个 程序 ， 它 有 时 需要 与 
你 联系 ， 例 如 天 气 检查 程序 ， 用 短信 提醒 你 带 爹 。 

举 一 个 简单 的 例子 ， 下 面 是 一 个 Python 小 程序 ， 包 含 了 textmyselfO 函 数 ， 它 
将 传 入 的 字符 串 参 数 作为 短信 发 出 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ,用 
自己 的 信息 蔡 换 帐户 SID， 认 证 标志 和 电话 号 码 。 将 它 保存 为 textMyself.py。 
#! python3 


# textMyself .py - Defines the textmyself() function that texts a message 
# passed to it as a string. 





























































































































# Preset values: 

accountSID = 'ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' 
authToken = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 
myNumber = '+15559998888' 

twilioNumber = “+15552225678 


from twilio.rest import TwilioRestClient 


© def textmyself (message): 
© twilioCli = TwilioRestClient(accountSID, authToken) 
© twilioCli.messages.create(body=message, from =twilioNumber, to=myNumber) 


该 程序 保存 了 账户 的 SD、 认 证 标志 、 发 送 号 码 及 接收 号 码 。 然 后 它 定义 了 
textmyself()， 接 收 参 数 @， 创 建 TwilioRestClient 对 象 @， 并 用 你 传 入 的 消息 调用 
create()@ 。 

如 果 你 想 让 其 他 程序 使 用 textmyselfO 函 数 , 只 需 将 textMyself.py 文件 和 Python 
的 可 执行 文件 放 在 同一 个 文件 夹 中 (Windows 上 是 C:\Python34，OS X 上 是 
/usr/local/lib/python3.4，Linux 上 是 /usr/bin/python3)。 现 在 ， 你 可 以 在 其 他 程序 中 使 
该 函数 。 只 要 想 在 程序 中 发 短信 给 你 ， 就 添加 以 下 代码 : 


import textmyself 
textmyself.textmyself('The boring task is finished.') 


注册 Twilio 和 编写 短信 代码 只 要 做 一 次 。 在 此 之 后 , 从 任何 其 他 程序 中 发 短信 ， 
只 要 两 行 代码 。 



















































































































































































16.8 小结 









































通过 因特网 和 手机 网 络 ， 我 们 用 几 十 种 不 同 的 方式 相互 通信 ， 但 以 电子 邮件 和 
短信 为 主 。 你 的 程序 可 以 通过 这 些 渠 道 沟通 ， 这 给 它们 带 来 强大 的 新 通知 功能 。 甚 
至 可 以 编程 运行 在 不 同 的 计算 机 上 ， 相 互 直接 通过 电子 邮件 能 信 ， 一 个 程序 用 SMTP 
发 送 电 子 邮件 ， 另 一 个 用 IMAP 收取 。 

Python 的 smtplib 提供 了 一 些 函 数 , 利用 SMTP, 通过 电子 邮件 提供 商 的 SMTP 
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16.9 
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尼子 邮件 。 同 样 ， 
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0 虽然 IMAP 比 SMTP 复杂 
下 载 它 们 、 解 析 它 们 ， 提 取 3 
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短信 与: 
接 。 好 在 ， 像 Twilio 
了 初始 设置 过 程 ， 就 
特定 的 情况 编程 ， 在 这 些 
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.发送 
.必须 调用 哪 4 个 smtplib 函数 /方法 ， 
. 必须 调用 哪 两 个 imapclient 函数 /方法 ， 才 外 
. 传递 给 mapObj.searchO 什 么 样 
如 果 你 的 代码 收 到 了 错误 消息 












































已 不 像 


j 几 行 代 码 来 发 送 短信 。 














外 子 邮 件 ， 发 送 短信 不 仅 需 要 互联 网 连 








了 模块 ， 人 允许 你 通过 程序 发 送 短信 。 
些 模块 ， 














掌握 了 这 上 








< 情况 下 发 送 通知 或 提醒 。 











EE 子 邮 件 的 协议 是 什么 ? 检查 和 接收 1 








EB 子 邮件 ? 





16.10 “实践 项 目 
作为 实践 ， 编 程 完成 以 下 任务 。 


16.10.1 

















随机 分 配 家 务 活 的 电子 邮件 程序 


4 开 














一 个 程序 ， 接 受 





并 随机 将 家 务 活 分 








配给 他 们 。 





一 个 电子 邮件 地 址 








条 要 从 Twilio 得 





现在 ， 


























的 参数 ? 
息 ，got more than 10000 bytes， 你 该 怎么 做 ? 
.imapclient 模块 负责 连接 到 IMAP 服务 器 和 查找 电子 邮件 。 什 么 模块 负责 读 
取 imapclient 收集 的 | 
在 发 送 短信 之 前 ， 你 需 





到 哪 3 种 信息 ? 














用 | 


























得 需要 挑战 ， 就 记录 每 个 人 2 


任何 人 分 
行 一 次 。 
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上 一 次 后 
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E 有 





这 上 


chores = ['dishes', 


站 
兢 小 : 





"bathroom ' ， 





前 分 配 家 务 








活 的 记录 ，i 这 检 














的 列表 ， 以 及 一 个 需要 做 的 家 务 沪 
B 子 邮件 通知 每 个 人 分 配给 他 们 的 家 务 。 如 果 你 觉 
就 可 以 确 











有 子 邮件 的 协议 是 什么 ? 
才能 登录 到 SMTP 服务 器 ? 
EE 登录 到 IMAP 服务 器 ? 











第 三 方 的 imapclient 和 pyzmail 模块 让 你 访问 IMAP 
晶 它 也 相当 
FE 题 和 正文 作为 字符 





旦 通过 
就 可 以 针对 
你 的 程序 将 超越 运行 它们 


舌 列表 ， 








保 程 序 不 会 








向 


























“Vacuum ' ， 


randomChore = random.choice(chores) 
chores.remove (randomChore) 


# this chore is now taken, so remove it 


如 果 将 一 个 列表 传 入 random.choice0 函 数 ， 
回 一 个 随机 选择 的 项 。 你 的 部 分 代码 看 起 来 可 能 像 这 样 : 





"Walk dog'] 
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它 将 从 该 列表 


同样 的 家 务 活 。 男 一 个 可 能 的 功能 ， 就 是 安排 程序 每 周 自动 运 
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16.10.2 ” 伞 提 醒 程 序 








第 11 章 展 示 了 如 何 利 月 

















个 程序 ， 在 你 早晨 快 醒 来 时 运行 ， 
信 提 醒 你 出 门 之 前 带 





16.10.3 ”自动 退 订 











好 一 把 爹 。 





编程 扫描 
器 中 于 
载 所 有 1 












































J 开 它 们 。 
BE 子 邮件 。 


你 的 电子 





该 程 











可 以 

















( 退 订 ) 的 HTML 链接 标签 。 








人 
情况 下 ， 这 








本 转 给 你 的 朋友 ， 











码 没有 人 硬 乡 








16.10.4 


编写 
并 














令 ， 


BitTorrent 软件 ， 





























序 将 检查 
通过 这 种 方式 ， 























本 不 是 盗版 的 ) 


得 到 这 些 URL 的 列表 





自动 执行 这 些 指令 
如 qBittorrent， 可 以 在 家 用 
电子 邮件 向 该 程序 发 送 一 个 〈 完 全 合法 的 ， 
文 个 消息 ， 提 取 链 接 ， 


电子 邮件 ， 发 现 ; 
你 可 以 在 















































通过 电子 邮件 控制 你 的 电脑 
个 程序 ， 每 15 分 钟 检 查 电子 邮件 账户 ， 获 取 / 
。 例 如 ，BitTorrent 是 








让 他 们 能 够 针对 他 们 的 | 
人 码 在 源 代码 中 )。 


邮件 账户 ， 在 所 有 邮件 * 
序 必 须 登 录 到 你 的 电子 邮件 服务 提供 商 的 IMAP 服 
BeautifulSoup 〈 在 第 11 章 中 介 




















外 子 邮件 账户 运行 它 〈“ 要 确 














找到 所 有 退 订 链 接 ， 并 















































有 requests 模块 ， 从 http://weather.gov/ 抓 取 数 据 。 编 写 一 
今 查 当 天 是 否 会 下 雨 。 如 果 会 下 雨 ， 











让 程序 用 短 











Ley 


自动 在 浏览 
务 器 ， 并 下 





绍 ) 检查 所 有 出 现 unsubscribe 


后 ， 可 以 用 webbrowser.open()， 在 浏览 器 中 自动 打开 所 





要 手工 操作 并 完成 所 有 额外 的 步 又， 从 这 些 邮件 列表 中 退 订 。 在 大 多 数 
需要 点 击 一 个 链接 确认 。 


人 不 必 查 看 所 有 电子 邮件 ， 寻 找 退 订 链 接 。 然 后 ， 可 以 将 这 个 肢 





保 


























电子 邮件 发 














个 对 等 网 络 下 载 系统 。 

















站 载 在 你 








口 


家 前 就 能 完 











全 


吊 





15S 章 了 





介 引 























qbProcess = Subprocess.Popen( 
qbittorrent.exe', 


当然 ， 你 希望 该 程序 确保 邮件 
电子 邮件 中 伪造 “from” 


含 一 个 密码 ， 





了 如 何 利 
































电脑 上 下 载 很 大 的 媒体 文件 。 
根本 不 是 次 





从 版 的 ) BitTorrent 





然后 启动 qBittorrent， 开 

















离开 家 的 时 候 让 家 月 





subprocess.PopenO 函 数 启动 计算 机 
下 面 的 调用 将 启动 qBittorrent 程序 ， 并 打开 一 

















电脑 开始 下 载 ， 





-的 程 











个 torrent 文件 : 


'C:\\Program Files (x86)\\qBittorrent\\ 
'shakespeare complete works.torrent']) 























来 自卫 











该 删 区 


个 额外 的 功能 ， 让 程序 每 次 执行 命令 





因为 在 





余 它 发 现 的 邮件 











， 这 样 就 不 会 每 次 检查 1 
] 电 子 邮 件 或 短信 给 你 发 一 条 确 


时 ， 
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你 





自己 。 有 具体 来 说 ， 你 可 


能 希 
地 址 ， 对 黑客 来 说 很 容易 














电子 邮件 账户 时 重复 执行 命令 

















| 





始 下 载 文件 。 
这 些 《〈 完 全 合法 的 ， 根 


你 的 邮箱 密 


送 的 所 有 指 
利用 免费 的 

如 果 你 用 
链接 ， 该 程 



































序 。 例 如 ， 


望 该 邮件 包 
该 程序 应 
令 。 作 全 














认 信 息 0° 














为 该 程序 运行 时 ， 你 不 会 坐 在 运行 它 的 计算 机 前 面 ， 所 以 利用 日 志 函 数 〈 参 见 第 10 
章 ) 写 文本 文件 日 志 是 一 个 好 主意 ， 你 可 以 检查 是 否 发 生 错误 。 

qBittorrent〈 以 及 其 他 BitTorrent 应 用 程序 ) 有 一 个 功能 ， 下 载 完成 后 ， 它 可 以 
自动 退出 。 第 15 章 解释 了 如 何 用 Popen 对 象 的 wait0 方 法 ,确定 启动 的 应 用 程序 何 
时 已 经 退出 。wait(O 方 法 调用 将 阻塞 ， 直 到 qBittorrent 停止 ,然后 程序 可 以 通过 电子 
邮件 或 短信 ， 通 知 你 下 载 已 经 完成 。 

可 以 为 这 个 项 目 添加 许多 可 能 的 功能 。 如 果 遇 到 困难 ， 可 以 从 http://nostarch. 
com/automatestuff/ 下 载 这 个 程序 的 示例 实现 。 
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处 理 图 像 文件 。 该 模块 包含 一 些 函 数 ， 可 以 很 容易 地 裁剪 
辑 图 像 的 内 容 。 可 以 像 Microsoft Paint 或 Adobe Photoshop 一 样 处 








以 及 纺 
有 了 这 种 能 


像 ， 



































17.1 计算 机 图 像 基 础 
为 了 处 理 图 像 ， 








| /a 


操作 图 像 





如 果 你 有 一 台数 码 相 机 ， 或 者 只 是 将 照 














六 从 手机 





上 传 








到 Facebook， 你 可 能 随时 都 会 偶然 遇 到 数字 














图 像 文件 。 


你 


可 能 知道 如 何 使 用 基本 的 图 形 软件 ， 如 Microsoft Paint 或 
Paintbrush， 甚 至 更 高 级 的 应 用 程序 ， 如 Adobe Photoshop。 















































但 是 ， 如 果 需 要 编辑 大 量 的 图 像 ， 手 工 编辑 可 能 是 漫长 、 











枯燥 的 工作 。 















































请 用 Python。Pillow 是 一 个 第 三 方 Python 模块 ， 用 





图 像 、 调 整 图 像 大 
里 图 





，Python 可 以 轻松 地 自动 编辑 成 干 上 万 的 图 像 。 



































你 需要 了 解 计算 机 如 何 处 理 图 像 中 的 颜色 和 坐标 的 基本 知识 ， 



































以 及 如 何在 Pillow 中 处 理 颜 色 和 坐标 。 但 在 继续 探讨 之 前 ， 先 要 安装 pillow 模块 。 




















安装 第 三 方 模块 请 见 附 录 A。 


17.1.1 颜色 和 RGBA 值 
计算 机 程序 通常 将 图 像 
































的 颜色 表示 为 RGBA 值 RGBA 值 是 一 纪 


日 数字 ,指定 


颜色 中 的 红 、 绿 、 蓝 和 alpha《〈 透 明度 ) 的 值 。 这 些 值 是 从 0〈 根 本 没有 ) 到 255〈 最 











高 ) 的 整数 。 这 些 RGBA 值 分 配给 单个 像素 ， 像 素 是 计算 机 屏幕 上 能 显示 



































种 颜色 





的 最 小 点 《你 可 以 想到 ， 屏 幕 上 有 几 百 万 像素 )。 像 素 的 RGB 设置 准确 地 告诉 它 应 


























该 显示 哪 种 颜色 的 色彩 。 图 像 也 有 一 个 alpha 值 ， 用 于 生成 RGBA 值 。 如 果 图 像 显 








示 在 屏幕 上 ， 械 住 了 背景 图 像 或 桌面 墙纸 ，alpha 值 决 定 了 “ 透 过 ”这 个 图 


素 ， 你 可 以 看 到 多 少 背景 。 























象 的 象 


在 Pillow 中 ,RGBA 值 表 示 为 四 个 整数 值 的 元 组 . 例如 ,红色 表示 为 (255, 0， 


























0，255)。 这 种 颜色 中 红 的 值 为 最 大 ， 没 有 绿 和 蓝 ， 并 且 alpha 值 最 大 ， 这 意味 着 它 完 


















































可 见 的 红色 看 起 来 就 像 不 可 见 的 黑色 一 样 。 


























全 不 透明 。 绿 色 表 示 为 (0，255，0，255)， 蓝 色 是 (0，0，255，255)。 
颜色 的 组 合 ， 即 〈25$，2S$，25S$，255)， 而 黑色 没有 任何 颜色 ， 是 (0，0，0，255 )。 
如 果 颜 色 的 alpha 值 为 0， 不 论 RGB 值 是 什么 ， 该 颜色 是 不 可 见 的 。 毕 竟 ， 不 


























当 色 是 各 种 











Pillow 使 用 了 HTML 使 用 的 标准 颜色 名 称 。 表 17-1 列 出 了 一 些 标准 颜色 的 名 














称 和 值 。 
表 17-1 标准 颜色 名 称 及 其 RGB 值 
名 称 RGBA 值 名 称 RGBA 值 
White (255, 255, 255, 255) Red (255, 0, 0, 255) 
Green (0, 128, 0, 255) Blue (0, 0, 255, 255) 
Gray (128, 128, 128, 255) Yellow (255, 255, 0, 255) 
Black (0, 0, 0, 255) Purple (128, 0, 128, 255) 

















Pillow 提供 ImageColor.getcolor0 函 数 ， 所 以 你 不 必 记 住 想 用 的 颜 1 











色 的 RGBA 值 。 





该 函数 接受 一 个 颜色 名 称 字符 串 作 为 第 一 个 参数 ， 字 符 串 RGBA' 作 为 第 二 个 参数 ， 





返回 一 个 RGBA 元 组 。 
要 了 解 该 函数 的 工作 方式 ， 就 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import ImageColor 

>>> ImageColor.getcolor('red', 'RGBA') 

(255, 0, 0, 255) 

>>> ImageColor.getcolor('RED', 'RGBA') 

(255, 0, 0, 255) 

>>> ImageColor.getcolor('Black', 'RGBA') 
(0，0，0，255) 

>>> ImageColor.getcolor('chocolate', 'RGBA') 
(210，105，30，255) 

>>> ImageColor.getcolor('CornflowerBlue', 'RGBA') 
(100，149，237，255) 


























Q@ e 


© 





首先 ， 你 需要 从 PIL 导入 ImageColor 模块 @ 不 是 从 Pillow， 稍 后 你 就 会 明 E 
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为 什么 )。 传 递 给 ImageColor.getcolor() 的 颜色 名 称 字符 串 是 不 区 分 大 小 写 的 ， 所 以 
传 入 Ted'@ 和 传 入 RED'@ 将 得 到 同样 的 RGBA 元 组 。 还 可 以 传递 更 多 的 不 常见 的 颜 
色 名 称 ， 如 'chocolate' 和 'Cornflower Blue'。 

Pillow 文 持 大 量 的 颜色 名 称 ， 从 aliceblue' 到 'whitesmoke'。 在 http://nostarch. 
com/automatestuff/ 的 资源 中 ， 可 以 找到 超过 100 种 标准 颜色 名 称 的 完整 列表 。 

















17.1.2 ”坐标 和 Box 元 组 
图 像 像 素 用 x 和 y 坐标 指定 ， 分 别 指定 像素 在 图 像 中 的 水 平和 垂直 位 置 。 原 点 
是 位 于 图 像 左 上 角 的 像素 ， 用 符号 (0，0) 指定 。 第 一 个 0 表示 X 坐标 ， 它 以 原点 
处 为 0， 从 左 至 右 增加 。 第 二 个 0 表示 y 坐标 ， 它 以 原点 处 为 0， 从 上 至 下 增加 。 
这 值得 重复 一 下 ，y 坐标 向 下 走 增加 ， 你 可 能 还 记得 数学 课 上 使 用 的 y 坐标 ， 与 此 
相反 。 图 17-1 展示 了 这 个 坐标 系统 的 工作 方式 。 

x 递增 







































































(0,0) 





(27,26) 
图 17-1 27x26 的 图 像 的 x 和 y 坐标 ， 某 种 古老 的 数据 存储 装置 


CMYK 和 RGB 着 色 

上 小 学 时 你 学 过 ， 混 合 红 、 黄 、 蓝 三 种 ” 料 可 以 得 到 其 他 顾 色 。 例如， 可 以 
混合 蓝 色 和 黄色 ,得 到 绿色 ” 料 。 这 就 是 所 谓 的 减 色 模型 ， 它 适用 于 染料 、 油 墨 
和 颜料 。 这 就 是 为 什么 彩色 打印 机 有 的 CMYK 黑金: 青色 ( 蓝 色 )、 品 红色 ( 红 
色 )、 黄 色 和 黑色 墨水 可 以 混合 在 一 起 ， 形 成 任何 颜色 。 

然而 ， 光 的 物理 使 用 所 谓 的 加 色 模 型 。 如 果 组 合 光 (例如 由 计算 机 屏幕 发 出 
的 光 )， 红 、 绿 和 蓝光 可 以 组 合 形 成 其 他 颜色 。 这 就 是 为 什么 在 计算 机 程序 中 使 
用 RGB 值 表示 颜 色 。 





许多 Pillow 函数 和 方法 需要 一 个 矩形 元 组 参数 。 这 意味 着 Pillow 需要 一 个 
四 个 整 坐标 的 元 组 ， 表 示 图 像 中 的 一 个 矩形 区 域 。 四 个 整数 按 顺 序 分 别 是 : 
。 左 ; 该 矩形 的 最 左边 的 x 坐标 。 
。 顶 : 该 矩形 的 顶 边 的 y 坐标 。 
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。 右 : 该 矩形 的 最 右边 右面 一 个 像素 的 x 坐标 。 此 整数 必须 比 左边 整数 大 。 
。 底 : 该 矩形 的 底 边 下 面 一 个 像素 的 y 坐标 。 此 整数 必须 比 顶 边 整数 大 。 


注意 , 该 矩形 包括 左 和 顶 坐 标 ,， 直到 但 不 包括 右 和 底 坐 标 。 例如 ， 算 形 元 组 (3， 
1, 9, 6) 表示 图 17-2 中 黑色 矩形 的 所 有 像素 。 


0123456789 
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‘OOO NO 


17-2 ”由 矩形 元 组 (3, 1,9,6) 表示 的 区 域 


17.2 ”用 Pillow 操作 图 像 


既然 知道 了 Pillow 中 颜色 和 坐标 的 工作 方式 ， 就 让 我 们 用 Pillow 来 处 理 图 
像 。 图 17-3 中 的 图 像 将 用 于 本 章 中 所 有 交互 式 环境 的 例子 。 你 可 以 从 http://nostarch. 
com/automatestuff/ 下 载 它 。 
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NT Me 


17-3 我 的 猫 Zophie。 照 片上 看 起 来 增加 了 10 磅 (对 猫 来 说 很 多 ) 
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17.2.1 














将 图 像 文 件 Zophie.png 放 在 当前 工作 目录 中 ， 你 就 可 以 将 Zophie 的 图 像 加 载 























到 Python 中 ， 像 这 样 ; 


>>> from PIL import Image 
>>> catIm = Image.open('zophie.png') 








要 加 载 图 像 ， 就 从 Pillow 导入 Image 模块 ， 并 调用 Image.open()， 传 入 图 像 的 
文件 名 。 然 后 ， 可 以 将 加 载 图 像 保 存在 CatIm 这 样 的 变量 中 。Pillow 的 模块 名 称 是 PIL， 
这 保持 与 老 模块 Python Imaging Library 问 后 兼容 ， 这 就 是 为 什么 必须 from PIL import 
Image, 而 不 是 from Pillow import Image。 由 于 Pillow 的 创建 者 设计 Pillow 模块 的 方式 ， 



























































你 必须 使 用 from PIL import Image 形式 的 import 语句 ， 而 不 是 简单 地 import PIL。 




















如 果 图 像 文件 不 在 当前 工作 目录 ， 就 调用 os.chdir0 函 数 ， 将 工作 目录 变 为 包含 














图 像 文件 的 文件 夹 。 


>>> import os 
>>> os.chdir('C:\\folder with image file') 























Image.open() 函 数 的 返回 值 是 Image 对 象 数据 类 型 ， 它 是 Pillow 将 图 像 表 示 为 
Python 值 的 方法 。 可 以 调用 Image.open(), 传 入 文件 名 字符 串 ， 从 一 个 图 像 文件 〈 任 






































二 SS。 



































图 像 操 作 ， 都 通过 这 个 Image 对 象 上 的 方法 调用 来 完成 。 
































可 格式 ) 加 载 一 个 Inage 对 象 。 通 过 save0 方 法 ， 对 Image 对 象 的 所 有 更 改 都 可 以 
保存 到 图 像 文件 中 (也 是 任何 格式 )。 所 有 的 旋转 、 调 整 大 小 、 裁 剪 、 绘 画 和 其 他 


为 了 让 本 章 的 例子 更 简短 ， 我 假定 你 已 导入 了 Pillow 的 Image 模块 ， 并 将 Zophie 









































函数 能 找到 它 。 否 则 ， 必 须 在 Image.open0 的 字符 串 参 数 中 指定 完整 的 绝对 路 径 。 











处 理 Image 数据 类 型 
Image 对 象 有 一 些 有 用 的 属性 ， 提 供 了 加 载 的 图 像 文 件 的 基本 信息 : 它 的 宽度 


@Q@e 
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© 





的 图 像 保 存在 变量 cattm 中 。 要 确保 zophie.png 文件 在 当前 工作 目录 中 ， 让 Image.open() 



































和 高 度 、 文 件 名 和 图 像 格式 〈 如 JPEG、GIF 或 PNG )。 
例如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> from PIL import Image 

>>> catIm = Image.open('zophie.png') 
>>> catIm.size 

(816, 1088) 

>>> width, height = catIm.size 
>>> width 

816 

>>> height 

1088 

>>> catIm.filename 
'zophie.png’ 

>>> CatIm.format 

"PNG 

>>> catIm.format description 
'Portable network graphics’' 
>>> catIm.save('zophie.jpg') 
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从 Zophie.png 得 到 一 个 Image 对象 并 保存 在 catIm 中 后 ， 我 们 可 以 看 到 该 对 象 


请 


的 size 属 


[ES 











性 是 一 个 元 组 ， 包 含 该 
的 值 赋 给 width 和 height 变量 @， 以 便 分 
了 原始 文件 的 名 称 。 








format 和 





图 像 的 宽度 和 高 度 的 像素 数 @。 


format description 属性 是 








我 们 可 以 将 元 组 中 
别 访问 宽度 目 和 高 度 @。filename 属性 描述 
串 ， 描 述 了 原始 文件 的 图 





人 


字符 








像 格式 (format_description 比较 详细 )。 

















最 后 ， 调 

















硬盘 上 
现在 硬盘 
图 














大 小 ， 





@。Pillow 看 到 文 但 
上 应 该 有 两 个 图 
像 ， 但 它们 不 一 样 ， 因 

Pillow 还 提供 
不 过 Image.newO 返 
字符 串 RGBA', 将 颜色 模式 设置 为 RGBA《〈 还 有 


图 像 开 始 采 
ImageColor.getcolor0 函 数 的 返 
入 标准 颜色 名 称 的 字符 串 。 
例如 ， 在 交互 式 环境 


] save0 方 法 ， 传 入 'zophie.jpg”， 


将 新 图 像 以 文件 名 zophie.jpg 保存 到 


























为 格式 不 同 。 
kt 了 Image.newO 函 数 ， 
的 对 象 表示 











FE 过 学 


YL， 





口 


























是 两 个 整数 元 组 ， 作 为 新 
的 背景 颜色 


| 
































口 


























>>> from PIL import Image 
© >>> im = Image.new('RGBA', (100, 200), purple ') 
>>> im.save('purpleImage.png') 
@ >>> im2 = Image.new('RGBA', (20, 20)) 
>>> im2.save('transparentIimage.png') 














这 里 ， 我 们 创建 了 一 个 Image 对 








背景 @。 然 后 ， 该 


J 


背景 ， 


17.2.2 ”裁剪 图 片 
裁剪 








不 是 在 原 图 





个 新 的 Image 对 象 。 评 
的 像素 ， 直 至 但 不 包 扩 








图 








默认 的 颜色 是 不 可 见 的 黑色 
文 个 20X20 的 透明 正方 形 存 入 transparentImage.png。 


我 们 将 这 


图 像 是 指 在 图 
象 的 crop0 方 法 接受 一 个 矩形 元 组 ， 
上 发 生 的 ， 也 就 是 说 ， 原 始 的 Image 对 象 原封 不 动 ，crop0 方 法 返回 一 
元 组 (这 



































4 了 记 住 ， 算 
6 右 列 和 底 行 的 






































企 交 互 式 坏 境 ! 








输入 以 下 代码 : 





扩展 名 是 jpg， 就 E 
象 ，zophie.png 和 zophie.jpg。 虽 然 这 


的 图 


， 是 一 个 表示 RGBA 


象 存 入 文件 purpleImage.png 中 。 我 介 
另 一 个 Image 对 象 ， 这 次 传 入 〈20, 20) 作为 大 小 ,没有 指 


像 内 选择 一 个 矩形 区 域 ， 
返 








图 像 格式 来 保存 图 像 。 
文 些 文件 都 基于 相同 的 





动 使 用 JPEG 


























口 











它 返回 一 个 Image 对 象 。 这 很 像 Image.open()， 
像 。Image.new0O 的 参数 如 下 : 

他 模式 , 但 本 书 没有 涉及 )。 
图 像 的 宽度 和 高 度 。 
直 的 四 整数 元 组 。 你 可 以 用 
值 作为 这 个 参数 。 另 外 ，Image.new0 也 支持 传 












































输入 以 下 代码 : 


宽 、200 像素 高 ， 带 有 紫色 
次 调用 Image new0， 创 建 
定 背景 色 @。 如 果 未 指定 


此 第 二 个 图 像 具 有 透明 


象 ， 它 有 100 像素 


] 由 










































































色 (0，0，0，0)， 因 

















~ 


并 删除 矩形 之 外 的 一 切 。 
图 像 。 


Image 对 























回 一 个 Image 对 象 ， 表 示 裁 剪 后 的 























里 就 是 要 裁剪 的 区 域 ) 包括 左 列 和 项 行 





像素 。 


>>> croppedIm = catIm.crop((335, 345, 565, 560)) 
>>> croppedIm.save('cropped.png') 
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这 得 到 一 个 新 的 Image 对 象 ， 是 剪裁 后 的 图 像 ， 保 存在 croppedIm 中 ， 然 后 调 
] croppedIm 的 save0， 将 裁剪 后 的 图 像 存 入 cropped.png。 新 文件 cropped.png 从 原 
台 图 像 创 建 ， 如 图 17-4 所 示 。 


















































图 17-4 新 图 像 只 有 原始 图 像 剪裁 后 的 部 分 


17.2.3 ”复制 和 粘贴 图 像 到 其 他 图 像 
copy() 方 法 返回 一 个 新 的 Image 对 象 , 它 和 原来 的 Image 对 象 具 有 一 样 的 图 像 。 
如 果 需 要 修改 图 像 ， 同 时 也 希望 保持 原 有 的 版 本 不 变 ， 这 非常 有 用 。 例 如 ， 在 交互 
式 环境 中 输入 以 下 代码 : 
>>> catIm = Image.open('zophie.png') 
>>> catCopyIm = catIm.copy() 
catIm 和 catCopyIm 变量 包含 了 两 个 独立 的 Image 对 象 ， 它 们 的 图 像 相 同 。 既 然 
catCopyIm 中 保存 了 一 个 Image 对 象 ， 你 可 以 随意 修改 catCopyIm， 将 它 存 入 一 个 新 的 
文件 名 ， 而 zophie.png 没有 改变 。 例 如 ， 让 我 们 尝试 用 paste0 方 法 修改 catCopyIm。 
paste() 方 法 在 Image 对 象 调 用 ， 将 男 一 个 图 像 粘贴 在 它 上 面 。 我 们 继续 交互 式 
环境 的 例子 ， 将 一 个 较 小 的 图 像 粘 贴 到 catCopyIm。 


>>> faceIm = catIm.crop((335, 345, 565, 560)) 
>>> faceIm.size 

(230，215) 

>>> catCopyIm.paste(faceIm, (0, 0)) 

>>> catCopyIm.paste(faceIm, (400, 500)) 

>>> catCopyIm.save('pasted.png') 


首先 我 们 向 crop0 传 入 一 个 抢 形 元 组 ， 指 定 zophie.png 中 的 一 个 矩形 区 域 ， 包 
含 Zophie 的 脸 。 这 将 创建 一 个 Image 对 象 , 表示 230X215 的 剪裁 区 域 ， 保 存在 faceIm 
中 。 现 在, 我 们 可 以 将 faceIm 粘贴 到 catCopyIm。paste() 方 法 有 两 个 参数 : 一 个 “ 源 ” 
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Image 对 象 ， 一 个 包含 x 和 y 坐标 的 元 组 ， 指 明 源 Image 对 象 粘贴 到 主 Image 对 象 
时 左上 角 的 位 置 。 这 里 ， 我 们 在 catCopyIm 上 两 次 调用 paste0， 第 一 次 传 入 (0, 0)， 
第 二 次 传 入 (400, 500)。 这 将 faceIm 两 次 粘贴 到 catCopyIm: 一 次 faceIm 的 左上 和 角 在 
(0, 0)， 一 次 faceIm 的 左上 角 在 (400, 500)。 最 后 ， 我 们 将 修改 后 的 catCopyIm 存 入 
pasted.png。pasted.png 如 图 17-5 所 示 。 



































EV ve 苹 
NN A 


17-5 ”Zophie 猫 ， 包 含 两 次 粘贴 她 的 脸 





注意 尽管 名 称 是 copy() 和 paste0， 但 Pillow 中 的 方法 不 使 用 计算 机 的 剪贴 板 。 
































请 注意 ，paste() 方 法 在 原 图 上 修改 它 的 Image 对 象 ， 它 不 会 返回 粘贴 后 图 像 的 
Image 对 象 。 如 果 想 调用 paste0， 但 还 要 保持 原始 图 像 的 未 修改 版 本 ， 就 需要 先 复 
制图 像 ， 然 后 在 副本 上 调用 paste()。 

假定 要 用 Zophie 的 头 平 铺 整 个 图 像 ， 如 图 17-6 所 示 。 可 以 用 两 个 for 循环 来 实 
现 这 个 效果 。 继 续 交 互 式 环境 的 例子 ， 输 入 以 下 代码 : 


>>> catImWidth, catImHeight = catIm.size 
>>> faceImWidth, faceImHeight = faceIm.size 












































rt 
es 




















Me 
































© >>> catCopyTwo = catIm.copy() 
@ >>> for left in range(0, catImWidth, faceImWidth): 
© for top in range(0, catImHeight, faceImHeight): 
print(left, top) 
catCopyTwo.paste(faceIm, (left, top)) 
0 0 
0 215 
0 430 
0 645 
0 860 
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17.2.4 


0 1075 

230 0 

230 215 

--SNip-- 

690 860 

690 1075 

>>> catCopyTwo.save('tiled.png') 


这 里 ， 我 们 将 catIm 的 高 度 的 宽度 保存 在 catImWidth 和 catImHeight 中 。 在 @, 我 
们 得 到 了 catIm 的 副本 ， 并 保存 在 catCopyTwo。 既 然 有 了 一 个 副本 可 以 粘贴 ， 我 们 就 
开始 循环 ， 将 faceIm 粘贴 到 catCopyTwo。 外 层 for 循环 的 left 变量 从 0 开始 ， 增 量 
是 faceImWidth〈 即 230) @。 内 层 for 循环 的 top 变量 从 0 开始 , 增 量 是 faceImHeight ( 即 
215) 上 日 。 这 些 舱 套 的 for 循环 生成 了 left 和 top 的 值 ， 将 faceIm 图 像 按 照 网 格 粘贴 
到 Image 对 象 catCopyTwo， 如 图 17-6 所 示 。 为 了 看 到 谍 套 循环 的 工作 ， 我 们 打印 
了 left 和 top。 粘 贴 完成 后 ， 我 们 将 修改 后 的 catCopyTwo 保存 到 tiled.png。 
























































a ) L 





17-6 谱 套 的 for 循环 与 paste()， 用 于 复制 猫 脸 (可 以 称 之 为 dupli-cat ) 


调整 图 像 大 小 
resize() 方 法 在 Image 对 象 上 调用 ， 返 回 指定 宽度 和 高 度 的 一 个 新 Image 对 象 。 
已 接受 两 个 整数 的 元 组 作为 参数 ， 表 示 返 回 图 像 的 新 高 度 和 宽度 。 在 交互 式 环境 中 
输入 以 下 代码 : 


© >>> width, height = catIm.size 

@ >>> quartersizedIm = catIm.resize((int(width / 2), int(height / 2))) 
>>> quartersizedIm.save('quartersized.png') 

© >>> sveltelm = catIm.resize((width, height + 300)) 
>>> svelteIm.save('svelte.png') 


这 里 ， 我 们 将 catIm.size 元 组 中 的 两 个 值 赋 给 变量 width 和 height@ 。 使 用 width 
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和 height， 而 不 是 catIm.size[0] 和 catIm.size[1]， 让 接 下 来 的 代码 更 易 读 。 
第 一 个 resize0 调 用 传 入 int(width / 2) 作 为 新 宽度 ，int(height / 2) 作为 新 高 度 @， 
所 以 resize0 返 回 的 Inage 对 象 具有 原始 图 像 的 一 半 长 度 和 宽度 ， 是 原始 图 像 大 小 的 
四 分 之 一 。resize() 方 法 的 元 组 参数 中 只 允许 整数 ， 这 就 是 为 什么 需要 用 intO 调 用 对 
两 个 除 以 2 的 值 取 整 。 

这 个 大 小 调整 保持 了 相同 比例 的 宽度 和 高 度 。 但 传 入 resize0 的 新 宽度 和 高 度 不 
必 与 原始 图 像 成 比例 。svelteIm 变量 保存 了 一 个 Image 对 象 ， 宽 度 与 原始 图 像 相 同 ， 
但 高 度 增 加 了 300 像素 @， 让 Zophie 显得 更 苗条 。 
请 注意 , resize0 方 法 不 会 在 原 图 上 修改 Image 对 象 , 而 是 返回 一 个 新 的 Image 对 象 。 













































































































































































粘贴 透明 像素 
通常 透明 像素 像 白色 像素 一 样 粘贴 。 如 果 要 粘贴 图 像 有 透明 像素 ， 就 将 该 ， 
像 作为 第 三 个 参数 传 入 , 这 样 就 不 会 粘贴 一 个 不 透明 的 撼 形 。 这 个 第 三 参数 是 “ 遮 
章 ”Image 对 象 。 遮 章 是 一 个 Image 对 象 ， 其 中 alpha 值 是 有 效 的 ， 和 
蓝 值 将 被 忽略 。 遮 章 告 诉 paste( 〇 函数 哪些 像素 应 该 复制 ， 哪 些 应 该 保持 透 UW 
章 的 高 级 用 法 超出 了 本 书 的 范围 ， 但 如 果 你 想 粘贴 有 透明 像素 的 图 像 ， 
该 Image 对 象 作 为 第 三 个 参数 。 


17.2.5 ”旋转 和 翻转 图 像 

图 像 可 以 用 rotate() 方 法 旋转 ， 该 方法 返回 旋转 后 的 新 Image 对 象 ， 并 保持 原始 
Image 对 象 不 变 。rotate() 的 参数 是 一 个 整数 或 浮 点 数 ， 表 示 图 像 逆 时 针 旋 转 的 度数 。 
在 交互 式 环 境 中 输入 以 下 代码 : 


>>> catIm.rotate(90).save('rotated90.png') 
>>> catIm.rotate(180).save('rotated180.png') 
>>> catIm.rotate(270).save('rotated270.png') 


注意 ， 可 以 连续 调用 方法 ， 对 rotate0 返 回 的 Image 对 象 直接 调用 save0。 第 一 

个 rotate0 和 save0 调 用 得 到 一 个 逆 时 针 旋 转 90 度 的 新 Inage 对 象 , 并 将 旋转 后 的 图 

像 存 大 rotated90.png。 第 二 和 第 三 个 调用 做 的 事情 一 样 , 但 旋转 了 180 度 和 270 度 。 
0 























































































































17-7 原始 图 像 ( 左 ) 和 逆 时 针 旋 转 90 度 、180 度 和 270 度 的 图 像 
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注意 ， 当 图 像 旋转 90 度 或 270 度 时 ， 宽 度 和 高 度 会 变化 。 如 果 旋 转 其 他 角度 ， 
图 像 的 原始 尺寸 会 保持 。 在 Windows 上 ， 使 用 黑色 的 背景 来 填补 旋转 造成 的 颖 隙 ， 
如 图 17-8 所 示 。 在 OS X 上 ， 使 用 透明 的 像素 来 填补 颖 际 。rotate() 方 法 有 一 个 可 选 
的 expand 关键 字 参 数 ， 如 果 设 置 为 True， 就 会 放大 图 像 的 尺寸 ， 以 适应 整个 旋转 
后 的 新 图 像 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 
>>> catIm.rotate(6).save('rotated6.png') 
>>> catIm.rotate(6, expand=True).save('rotated6 expanded.png') 
第 一 次 调用 将 图 像 旋转 6 度 ， 并 存 入 rotate.png 〈 人 参见 图 17-8 的 左边 的 图 像 )。 第 
二 次 调用 将 图 像 旋转 6 度 ，expand 设置 为 True， 并存 入 rotate6_expanded.png( 参 见 
图 17-8 的 右 侧 的 图 像 )。 






















































































17-8 图 像 普通 旋转 6 度 ( 左 )， 以 及 使 用 expand=True ( 右 ) 














利用 transpose0 方 法 ， 还 可 以 得 到 图 像 的 “镜像 翻转 ”必须 向 transpose0 方 法 
传 入 Image.FLIP_LEFT_RIGHT 或 Image.FLIP_TOP_BOTTOM。 在 交互 式 环境 中 输 
入 以 下 代码 : 
>>> catIm.transpose(Image.FLIP LEFT RIGHT).save('horizontal flip.png') 
>>> catIm.transpose(Image.FLIP_ TOP BOTTOM) .save('vertical flip.png') 

像 rotate0 一 样 ，transpose0 会 创建 一 个 新 Image 对 象 。 这 里 我 们 传 入 Image.FLIP_ 
LEFT_RIGHT， 让 图 像 水 平 翻转 ， 然 后 存 入 horizontal_flip.png。 要 垂直 翻转 图 像 ， 传 
入 Image.FLIP_TOP_BOTTOM， 并 存 入 vertical_flip.png。 结 果 如 图 17-9 所 示 。 
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Ah- 


图 17-9 原始 图 像 ( 左 )， 水 平 翻转 (中 )， 重 直 翻 转 ( 右 ) 


17.2.6 ”更 改 单个 像素 
单个 像素 的 颜色 可 以 通过 getpixel0 和 putpixel0 方 法 取得 和 设置 。 它们 都 接受 一 个 元 
组 ， 表 示 像 素 的 x 和 y 坐标 。putpixel0 方 法 还 接受 一 个 元 组 ， 作 为 该 像素 的 颜色 。 这 个 
颜色 参数 是 四 整数 RGBA 元 组 或 三 整数 RGB 元 组 。 在 交互 式 环境 中 输入 以 下 代码 : 
© >>> im = Image.new('RGBA', (100, 100)) 
@ >>> im.getpixel((0, 0)) 
(0, 0, 0, 0) 
© >>> for x in range(100): 


for y in range(50): 
(44 im.putpixel((x, y), (210, 210,，210)) 










































































>>> from PIL import ImageColor 
© >>> for x in range(100): 
for y in range(50, 100): 
© im.putpixel((x, y), ImageColor.getcolor('darkgray', 'RGBA')) 
>>> im.getpixel((0, 0)) 
(210，210，210，255) 
>>> im.getpixel((0, 50)) 
(169, 169, 169, 255) 
>>> im.save('putPixel.png') 
在 @， 我 们 得 到 一 个 新 图 像 ， 这 是 一 个 100X 100 的 透明 正方 形 。 对 一 些 坐标 调 
j getPixel0 将 返回 (0，0，0，0)， 因 为 图 像 是 透明 的 @。 要 给 图 像 中 的 像素 上 色 ， 
我 们 可 以 使 用 能 套 的 for 循环 ， 遍 历 图 像 上 半 部 分 的 所 有 像素 @， 用 putpixel0 设 置 每 
个 像素 的 颜色 @ 。 这 里 我 们 向 putpixel0 传 入 RGB 元 组 (210，210，210)， 即 浅 灰 色 。 
假定 我 们 希望 图 像 下 半 部 分 是 暗 灰 色 ， 但 不 知道 深 灰 色 的 RGB 元 组 。putpixel0 方 
法 不 接受 'darkgray' 这 样 的 标准 颜色 名 称 ， 所 以 必须 使 用 ImageColor.getcolor() 来 获得 
'darkgray' 的 颜色 元 组 .循环 遍历 图 像 的 下 半 部 分 像素 @, 向 putpixel0 传 入 ImageColor. 
getcolor(0) 的 返回 值 @， 你 现在 应 该 得 到 一 个 图 像 ， 上 半 部 分 是 浅 灰 色 ， 下 半 部 分 是 
深 灰 色 ， 如 图 17-10 所 示 。 可 以 对 一 些 坐 标 调用 getPixel0， 确 认 指 定 像素 的 颜色 符 
合 你 的 期 望 。 最 后 ， 将 图 像 存 入 putPixel.png。 
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17-10 ”putPixel.png 中 的 图 像 
当然 ， 在 图 像 上 一 次 绘制 一 个 像素 不 是 很 方便 。 如 果 需 要 绘制 形状 ， 就 使 用 本 
章 稍 后 介绍 的 ImageDraw 函数 。 



























































17.3 项目: 添加 微 标 


假设 你 有 一 项 无 聊 的 工作 ， 要 调整 数 千张 图 片 的 大 小 ， 并 在 每 张 图 片 的 角 上 增 
加 一 个 小 徽标 水 印 。 使 用 基本 的 图 形 程序 ， 如 Paintbrush 或 Paint， 完 成 这 项 工作 需 
要 很 长 时 间 。 像 Photoshop 这 样 神奇 的 应 用 程序 可 以 批量 处 理 ， 但 这 个 软件 要 花 几 
百 美元 。 让 我 们 写 一 个 脚本 来 完成 工作 。 
假定 图 17-11 是 要 添加 到 每 个 图 像 右 下 角 的 标识 ， 带 有 白色 边框 的 黑 猫 图标 ， 
图 像 的 其 余部 分 是 透明 的 。 
























































































































































17-11 添加 到 图 像 中 的 徽标 


总 的 来 说 ， 程 序 应 该 完成 下 面 的 事 : 
。 载 入 徽标 图 像 。 
。 循环 遍历 工作 目标 中 的 所 有 .png 和 .jpg 文件 。 
。 检查 图 片 是 否 宽 于 或 高 于 300 像素 。 
。 如 果 是 , 将 宽度 或 高 度 中 较 大 的 一 个 减 小 为 300 像素 , 并 按 比例 缩小 的 男 一 维度 。 
。 在 角 上 粘贴 微 标 图 像 。 
。 将 改变 的 图 像 存 入 男 一 个 文件 夹 。 
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这 意味 着 代码 需要 做 到 以 下 几 点 : 


。 打 





开 catlogo.png 文件 作为 Image 对 象 。 


。 循环 遍历 os.listdir(.) 返 回 的 字符 串 。 

















































































































。 通过 size 属性 取得 图 像 的 宽度 和 高 度 。 

。 计算 调整 后 图 像 的 新 高 度 和 宽度 。 

。 调用 resize() 方 法 来 调整 图 像 大 小 。 

。 调用 paste() 方 法 来 粘贴 徽标 。 

。 调用 save() 方 法 保存 更 改 ， 使 用 原来 的 文件 名 。 





第 1 步 : 打开 徽标 图 像 
针对 这 个 项 目 ， 打 了 
resizeAndAddLogo.py: 


#! python3 


# resizeAndAddLogo.py - 





























于 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 





Resizes all images in current working directory to fit 


# in a 300x300 square, and adds catlogo.png to the lower-right corner. 
import os 
from PIL import Image 


SQUARE F 


®©e 


Go 


# TODO: 


# TODO: 


# TODO: 


# TODO: 


# TODO: 





# TODO: 


在 程序 


IT_SIZE = 300 


LOGO FILENAME = 'catlogo.png' 


logoIm = Image.open(LOGO FILENAME) 
logoWidth, logoHeight = logoIm.size 


Loop over all files in the working directory. 


Check if image needs to be resized. 


Calculate the new width and height to resize to. 


Resize the image. 


Add the logo. 


Save changes. 











F 始 时 设置 SQUARE_FIT_SIZE@ 和 LOGO_FILENAME@ 常 量 ， 这 让 程 
序 以 后 更 容易 修改 。 
大 小 要 减少 的 值 不 是 300 


没有 这 些 常数 ， 
值 。 总 之 ， 使 月 


























段 定 


就 要 在 代码 中 寻找 所 有 的 300 和 'catlogo.png， 
























































尔 要 添加 的 微 标 不 是 猫 图标 ， 或 者 假定 将 输出 图 像 的 最 大 
银 素 。 有 了 程序 开始 时 定义 的 这 些 常量 , 你 可 以 打开 代码 ， 
修改 一 下 这 些 值 ， 就 大 功 告 成 了 〈 或 者 你 可 以 让 这 些 常量 的 值 








从 命令 行 参数 获得 )。 









































常量 使 程序 更 加 通用 。 


















































将 它们 蔡 换 新 项 目的 








徽标 Image 对 象 从 Image.open0 返 回 @。 为 了 增强 可 读 性 ，logoWidth 和 logoHeight 
被 赋予 logoIm.size 中 的 值 @。 


该 程序 的 其 余部 分 日 
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前 是 TODO 注释 ， 说 明了 程序 的 骨架 。 


第 2 步 : 遍历 所 有 文件 并 打开 图 像 
现在 ， 需 要 找到 当前 工作 目录 中 的 每 个 PNG 文件 和 .jpg 文件 。 请 注意 ， 你 不 希 
望 将 徽标 图 像 添 加 到 徽标 图 像 本 身 ， 所 以 程序 应 该 跳 过 所 有 像 LOGO_FILENAME 
这 样 的 图 像 文 件 名 。 在 程序 中 添加 以 下 代码 : 


#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 
















































































import os 
from PIL import Image 


--SNip-- 
os.makedirs('withLogo', exist ok=True) 
# Loop over all files in the working directory. 
for filename in os.listdir('.'): 
if not (filename.endswith('.png') or filename.endswith('.jpg')) \ 
or filename == LOGO FILENAME: 
© continue # Skip non-image files and the logo file itself 


Q@ e 


@ im = Image.open(filename) 
width, height = im.size 


--SNip-- 


首先 ，os.makedirsO 调 用 创建 了 一 个 文件 夹 withLogo， 用 于 保存 完成 的 、 带 有 徽标 
的 图 像 ， 而 不 是 覆盖 原始 图 像 文 件 。 关 键 字 参数 exist_ok=True 将 防止 os.makedirs0 在 
withLogo 已 存在 时 抛 出 异常 。 在 用 os.listdir(.”) 遍 历 工作 目录 中 的 所 有 文件 时 @， 较 
长 的 让 语句 四 检查 每 个 flename 是 否 以 .png 或 .jpg 结束。 如果 不 是 ， 或 者 该 文件 是 
徽标 图 像 本 身 ， 循 环 就 跳 过 它 ， 使 用 continue 目 去 处 理 下 一 个 文件 。 如 果 fename 
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确实 以 .png' 或 jpg 结束 《而 且 不 是 徽标 文件 )， 可 以 将 它 打 开 为 一 个 Image 对 象 @， 
并 设置 width 和 height。 


第 3 步 : 调整 图 像 的 大 小 
只 在 有 宽 或 高 超过 SQUARE_FIT_SIZE 时 (在 这 个 例子 中 ， 是 300 像素 )， 该 
程序 才 应 该 调整 图 像 的 大 小 ， 所 以 将 所 有 大 小 调整 的 代码 放 在 一 个 检查 width 和 
height 变量 的 站 语句 内 。 在 程序 中 添加 以 下 代码 : 


#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 

































































import os 
from PIL import Image 


--SNip-- 


# Check if image needs to be resized. 
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if width > SQUARE FIT SIZE and height > SQUARE FIT SIZE: 
# Calculate the new width and height to resize to. 
if width > height: 


0 height = int((SQUARE FIT SIZE / width) * height) 
width = SQUARE_FIT_SIZE 
else: 
© width = int((SQUARE FIT SIZE / height) * width) 


height = SQUARE FIT_ SIZE 


# Resize the image. 
print('Resizing %s...' % (filename)) 
© im = im.resize((width, height)) 














如 果 图 像 确实 需要 调整 大 小 ， 就 需要 弄 清 楚 它 是 太 宽 还 是 太 高 。 如 果 width 大 
于 height, 则 高 度 应 该 根据 宽度 同比 例 减 小 @。 这 个 比例 是 当前 宽度 除 以 SQUARE_ 
FIT_SIZE 的 值 。 新 的 高 度 值 是 这 个 比例 乘 以 当前 高 度 值 。 由 于 除法 运算 符 返 回 一 个 
浮 点 值 ， 而 resize0 要 求 的 尺寸 是 整数 ， 所 以 要 记得 将 结果 用 int0 函 数 转换 成 整数 。 
最 后 ， 新 的 width 值 就 设置 为 SQUARE _FIT_SIZE。 
如 果 height 大 于 或 等 于 width 这 两 种 情况 都 在 else 子 句 中 处 理 )， 那 么 进行 同 
样 的 计算 ， 只 是 交换 height 和 width 变量 的 位 置 @。 
在 width 和 height 包含 新 图 像 尺寸 后， 将 它们 传 入 resize0 方 法 ， 并 返回 的 Image 
对 象 保存 在 im 中 人 @。 
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第 4 步 : 添加 微 标 ， 并 保存 更 改 
不 论 图 像 是 否 调 整 大 小 ， 徽 标 仍 应 粘贴 到 右 下 角 。 徽 标 粘贴 的 确切 位 置 取决 于 
图 像 的 大 小 和 徽标 的 大 小 。 图 17-12 展示 了 如 何 计算 粘贴 的 位 置 。 粘 贴 徽标 的 元 坐 






















































































标 将 是 图 像 宽 度 减 去 徽标 宽度 ， 顶 坐标 将 是 图 像 高 度 减 去 徽标 高 度 。 
图 像 宽度 














图 17-12 在 右 下 角 放 置 徽标 的 左 坐 标 和 顶 坐 标 ， 应 该 是 图 像 的 宽度 /高 度 减 去 徽标 宽度 /高 度 
代码 将 徽标 粘贴 到 图 像 中 后 ， 应 保存 修改 后 的 Image 对 象 。 将 以 下 代码 添加 到 
程序 中 : 


#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
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# in a 300x300 square, and adds catlogo.png to the lower-right corner . 


import os 
from PIL import Image 
--SNip-- 


# Check if image needs to be resized. 
--SNip-- 


# Add the logo. 


0 print('Adding logo to %s...' % (filename)) 
© im.paste(logoIm, (width - logoWidth, height - logoHeight), logoIm) 


# Save changes. 
目 im.save(os.path.join('withLogo', filename)) 


新 的 代码 输出 一 条 消息 ， 告 诉 用 户 徽标 已 被 加 入 @， 将 logoIm 粘贴 到 im 中 计 
算 的 坐标 处 @， 并 将 谈 更 保存 到 withLogo 目录 的 flename 中 @。 如 果 运 行 这 个 程序 ， 
zophie.png 文件 是 工作 目录 中 唯一 的 图 像 ， 输 出 会 是 这 样 : 


Resizing zophie.png... 
Adding logo to zophie.png... 


图 像 zophie.png 将 变 成 225X300 像素 的 图 像 ， 如 图 17-13 所 示 。 请 记 住 ， 如 果 
没有 传 入 logoIm 作为 第 三 个 参数 ，paste0 方 法 不 会 粘贴 透明 的 像素 。 这 个 程序 可 以 
在 短 短 几 分 钟 内 自动 调整 几 百 幅 图 像 ， 并 “加 上 徽标 ” 










































































图 17-13 图 像 zophie.png 调整 了 大 小 并 加 上 了 徽标 ( 左 )。 如 果 忘 记 了 第 三 个 参数 ， 
徽标 中 透明 的 像素 将 被 复制 为 不 透明 的 白色 像素 ( 右 ) 


第 5 步 : 类 似 程序 的 想法 
能 够 批量 合成 图 像 或 修改 图 像 大 小 ， 在 许多 应 用 中 都 有 用 。 可 以 编写 类 似 的 程 
让 作 有 
。 为 图 像 添 加 文字 或 网 站 URL。 
。 为 图 像 添 加 时 间 戳 。 
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。 根据 图 像 的 大 小 ， 将 图 像 复 制 或 移动 到 不 同 的 文件 夹 中 。 





。 为 图 像 添加 一 个 几乎 透明 的 水 印 ， 





17.4 在 图 像 上 绘画 


























防止 他 人 复制 。 








如 果 需 要 在 图 像 上 画 线 、 窍 形 、 圆 形 或 其 他 简单 形状 , 就 用 Pillow 的 ImageDraw 模 























块 。 在 交互 式 环境 中 输入 以 下 代码; 


>>> from PIL import Image，ImageDraw 
>>> im = Image.new('RGBA', (200, 200), 'w 
>>> draw = ImageDraw.Draw(im) 











hite') 


首先 ， 我 们 导入 Image 和 ImageDraw。 然 后 ， 创 建 一 个 新 的 图 像 ， 在 这 个 例子 





中 ， 是 200X200 的 白色 图 像 ， 将 这 个 














象 传 入 ImnageDraw.Draw0O 函 数 ， 得 到 一 个 ImageDraw 对 象 。 这 个 对 象 有 一 些 方法 ， 











可 以 在 Image 对 象 上 绘制 形状 和 文字 。 

















17.4.1 绘制 形状 























Image 对 象 保存 在 Im 中 。 我 们 将 该 Image 对 











将 ImageDraw 对 象 保存 在 变量 draw 中 ， 这 





样 就 能 在 接 下 来 的 例子 中 方便 地 使 用 它 。 














下 面 的 InageDraw 方法 在 图 像 上 绘制 各 种 形状 。 这 些 方法 的 和 1 和 outline 参数 











是 可 选 的 ， 如 果 未 指定 ， 默 认为 白色 。 
点 


do 






































point(xy, 内) 方法 绘制 单个 像素 。xy 参数 表示 要 画 的 点 的 列表 。 该 列表 可 以 是 x 





和 y 坐标 的 元 组 的 列表 ,例如 [(x, y), (x 











, 7), …]， 或 是 没有 元 组 的 x 和 y 坐标 的 列表 ， 














例如 [x1, yl, x2, y2, .…]。fill 参数 是 点 的 颜色 ， 要 么 是 一 个 RGBA 元 组 ， 要 么 是 颜色 
名 称 的 字符 串 ， 如 red'。fill 参数 是 可 选 的 。 








线 


line(xy, fill, width) 方 法 绘制 一 条 线 
例如 [(x, y), (x, y), …]， 要 么 是 一 个 整数 

















在 绘制 的 线 上 的 一 个 连接 点 。 可 选 的 f 参数 是 线 的 颜色 ， 是 一 个 RGBA 元 组 或 颜 








名 称 。 可 选 的 width 参数 是 线 的 宽度 ， 妇 
矩形 








或 一 系列 的 线 。xy 要 么 是 一 个 元 组 的 列表 ， 
列表 ， 例 如 [xl, yl, x2, y2, ...] 。 每 个 点 都 是 正 



































[ER 

















[有 果 未 指定 ， 缺 省 值 为 1。 











rectangle(xy, fill, outline) 方 法 绘制 一 个 矩形 。xy 参数 是 一 个 矩形 元 组 ， 形 式 为 (eft， 





top, right, bottom)。left 和 top 值 指定 了 名 
了 和 矩形 的 右 下 角 。 可 选 的 fl 参数 是 颜 
数 是 矩形 轮廓 的 颜色 。 
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E 形 左上 角 的 x 和 y 坐标 ，right 和 bottom 指定 
色 ， 将 填充 该 矩形 的 内 部 。 可 选 的 outline 参 




















[(x, y), (x, y), .…]， 或 者 是 一 个 整数 列表 ,例如 [x1, yl, x2, y2, ...]， 表 示 多 边 形 边 的 连 
接点 。 最 后 一 和 一 对 坐标 。 可 选 的 fill 参数 是 多 边 形 内 部 的 颜 


色 ， 


>>> 
>>> 
>>> 
©@ >>> 
加 >>> 
© >>> 
@ >>> 


椭圆 
ellipse(xy fill outline) 方 法 绘制 一 个 椭圆 。 如 果 椭 圆 的 宽度 和 高 度 一 样 ， 该 方法 将 给 








制 一 个 圆 。xy 参数 是 一 个 矩形 元 组 (deft, top, right, bottom)， 它 表示 正好 包含 该 椭圆 的 
和 矩形。 可 选 的 负 参 数 是 椭圆 内 的 颜色 ， 可 选 的 outline 参数 是 椭圆 轮 廊 的 闫 色 。 


























多 边 形 
0 fill, outline) 方 法 绘制 任意 的 多 边 形 。xy 参数 是 一 个 元 组 列表 ， 例 如 



































可 选 的 outline 参数 是 多 边 形 轮廓 的 颜色 。 
绘制 示例 
在 交互 式 环境 中 输入 以 下 代码 : 


from PIL import Image, ImageDraw 

im = Image.new('RGBA', (200, 200), 'white') 

draw = ImageDraw.Draw(im) 

draw.line([(0, 0), (199, 0), (199, 199), (0, 199), (0, 0)], fill='black') 
draw.rectangle((20, 30, 60, 60), fill='blue') 

draw.ellipse((120, 30, 160, 60), fill='red') 

draw.polygon(((57, 87), (79, 62), (94, 85), (120, 90), (103, 113)), 


fill='brown') 


© >>> 


>>> 


for i in range(100, 200, 10): 
draw.line([(i, 0), (200, i - 100)], fill='green') 


im.save('drawing.png') 














为 200X200 的 白色 图 像 生 成 Image 对 象 后 ， 将 它 传 入 ImageDraw. DrawO, 获 

















得 ImageDraw 对 象 ， 将 它 保 存在 draw 中 ， 可 以 对 draw 调用 绘图 方法 。 这里， 我们 
在 图 像 边缘 画 上 窄 的 黑色 轮廓 @; 一 个 蓝 色 的 矩形 ， 左 上 角 在 (20, 30)， 右 下 角 在 






































3 














(60, 60) @; 一 个 红色 的 椭圆 ， 由 (120, 30) 到 (160, 60〉 的 矩形 来 定义 @; 一 个 
棕色 的 多 边 形 ， 有 五 个 顶点 @， 以 及 一 些 绿 线 的 图 案 ， 用 for 循环 绘制 @。 得 到 的 
drawing.png 文件 如 图 17-14 所 示 。 



























































17-14 得 到 的 图 像 drawing.png 
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ImageDraw 对 象 还 有 另外 几 个 绘制 形状 的 方法 。 完 整 的 文档 在 http://pillow. 


readthedocs.org/en/latestreference/ImageDraw.html。 


17.4.2 ”绘制 文本 
ImageDraw 对 象 还 有 text0 方 法 ， 用 于 在 图 像 上 绘制 文本 。text0 方 法 有 4 个 参 
数 : xy、text、fill 和 font。 
。 xy 参数 是 两 个 整数 的 元 组 ， 指 定 文 本 区 域 的 左上 角 。 
。 text 参数 是 想 写 入 的 文本 字符 串 。 
选 参数 fl 是 文本 的 颜色 。 
选 参数 font 是 一 个 InageFont 对 象 , 用 于 设置 文本 的 字体 和 大 小 。 下 一 节 中 
详细 地 介绍 了 这 个 参数 。 
因为 通常 很 难 预先 知道 一 块 文本 在 给 定 的 字体 下 的 大 小 , 所 以 ImageDraw 模块 
也 提供 了 textsize0 方 法 。 它 的 第 一 个 参数 是 要 测量 的 文本 字符 串 ， 第 二 个 参数 是 可 
选 的 ImageFont 对 象 。textsize() 方 法 返回 一 个 两 整数 元 组 ， 表 示 如 果 以 指定 的 字体 
写 入 图 像 ， 文 本 的 宽度 和 高 度 。 可 以 利用 这 个 宽度 和 高 度 ， 帮 助 你 精确 计算 文本 放 
在 图 像 上 的 位 置 。 
textO 的 前 三 个 参数 非常 简单 。 在 用 text0 向 图 像 绘制 文本 之 前 ， 让 我 们 来 看 看 
可 选 的 第 四 个 参数 ， 即 ImageFont 对 象 。 
text0 和 textsizeO) 都 接受 可 选 的 InageFont 对 象 ， 作 为 最 后 一 个 参数 。 要 创建 这 
种 对 象 ， 先 执行 以 下 命令 : 


>>> from PIL import ImageFont 


既然 已 经 导入 Pillow 的 ImageFont 模块 , 就 可 以 调用 ImageFont.truetype0) 函 数 ， 它 
有 两 个 参数 。 第 一 个 参数 是 字符 串 ， 表 示 字 体 的 TrueType 文件 ， 这 是 人 硬盘 上 实际 的 字 
体 文件 。TrueType 字体 文件 具有 .TTF 文件 扩展 名 ， 通 常 可 以 在 以 下 文件 夹 中 找到 : 

。 在 Windows 上 : C:\Windows\Fonts。 
。 在 OSX 上 : /Library/Fonts and /System/Library/Fonts。 
。 在 Linux 上 : /usr/share/fonts/truetype。 

实际 上 并 不 需要 输入 这 些 路 径 作为 TueType 字体 文件 的 字符 串 的 一 部 分 ， 因 为 
Python 知道 自动 在 这 些 目录 中 搜索 字体 。 如 果 无 法 找到 指定 的 字体 , Python 会 显示 错误 。 

ImageFonttruetype0O 的 第 二 个 参数 是 一 个 整数 ， 表 示 字 体 大 小 的 点 数 《〈 而 不 是 像 
素 )。 请 记 住 ，Pillow 创建 的 PNG 图 像 默 认 是 每 英寸 72 像素 ， 一 点 是 1/72 英寸 。 

在 交互 式 环 境 中 输入 以 下 代码 ， 用 你 的 操作 系统 中 实际 的 文件 夹 名 称 蔡 换 
FONT_FOLDER: 
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>>> from PIL import Image, ImageDraw, ImageFont 
>>> import os 
© >>> im = Image.new('RGBA', (200, 200), 'white') 
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@ >>> draw = ImageDraw.Draw(im) 
© >>> draw.text((20，150)， 'Hello', fill='purple') 
>>> fontsFolder = 'FONT FOLDER' # e.g. ‘/Library/Fonts’ 
@ >>> arialFont = ImageFont.truetype(os.path.join(fontsFolder, 'arial.ttf'), 32) 
@ >>> draw.text((100, 150), 'Howdy', fill='gray', font=arialFont) 
>>> im.save('text.png') 


导入 Image、ImageDraw、ImageFont 和 os 后 ， 我 们 生成 一 个 Image 对 象 ， 是 
新 的 200X200 白色 图 像 O， 并 通过 这 个 Image 对 象 得 到 一 个 ImageDraw 对 象 @。 
我 们 使 用 text0 在 (20, 150) 以 紫色 绘制 Hello@ 。 在 这 次 text0 调 用 中 ， 我 们 没有 传 
入 可 选 的 第 四 个 参数 ， 所 以 这 段 文本 的 字体 和 大 小 没有 定制 。 

要 设置 字体 和 大 小 ， 我 们 首先 将 文件 夹 名 称 ( 如 /Library/Fonts ) 保存 在 fontsFolder 
中 。 然 后 调用 ImageFont.truetype0， 传 入 我 们 想 要 的 字体 的 .TTF 文件 ， 之 后 是 表示 
字体 大 小 的 整数 @。 将 ImageFont.truetypeO 返 回 的 Font 对 象 保存 在 arialFont 这 样 的 
变量 中 ， 然 后 将 该 变量 传 入 text0， 作 为 最 后 的 关键 字 参 数 。@ 行 的 textO 调 用 绘制 
了 Howdy， 采 用 灰色 、32 点 Arial 字体 。 

得 到 的 text.png 文件 如 图 17-15 所 示 。 














































































































Hello 


Howdy 


17-15 得 到 的 图 像 text.png 


17.5 小结 

















图 像 由 像素 的 集合 构成 ， 每 个 像素 具有 表示 颜色 的 RGBA 值 ， 可 以 通过 x 和 y 
坐标 的 定位 。 两 种 常见 的 图 像 格 式 是 JPEG 和 PNG。Pillow 模块 可 以 处 理 这 两 种 图 
像 格 式 和 其 他 格式 。 

当 图 像 被 加 载 为 Inage 对 象 时 ， 它 的 宽度 和 高 度 作为 两 整数 元 组 ， 保 存在 size 
属性 中 。Image 数据 类 型 的 对 象 也 有 一 些 方法 ， 实 现 常见 的 图 像 处 理 : crop()、copy0、 
paste()、resize()、rotate() 和 transpose()。 要 将 Image 对 象 保 存 为 图 像 文件 ， 就 调用 
save() 方 法 。 
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如 果 和 希望 程序 在 图 像 上 绘制 形状 ， 就 使 用 InageDraw 的 方法 绘制 点 、 线 、 
和 矩形、 椭圆 和 多 边 形 。 该 模块 也 提供 了 一 些 方 法 ， 用 你 选择 的 字体 和 大 小 绘制 
文本 。 

虽然 像 Photoshop 这 样 高 级 〈 且 昂贵 ) 的 应 用 程序 提供 了 自动 批量 处 理 功能 ， 但 
你 可 以 用 Python 脚本 , 免费 完成 许多 相同 的 修改 。 在 前 面 的 章节 中 ,你 编写 Python 
程序 来 处 理 纯 文本 文件 、 电 子 表 格 、PDF 和 其 他 格式 。 利 用 Pillow 模块 ， 你 已 将 编 
旦 能力 扩展 到 处 理 图 像 ! 

































































































































































17.6 “习题 


什么 是 RGBA 值 ? 
如 何 利 用 Pillow 模块 得 到 'CornflowerBlue' 的 RGBA 值 ? 
什么 是 矩形 元 组 ? 
那个 函数 针对 名 为 sophie.png 图 像 文 件 返回 一 个 Image 对 象 ? 
如 何 得 到 一 个 Image 对 象 的 图 像 的 宽度 和 高 度 ? 
. 调用 什么 方法 会 得 到 一 个 100X 100 的 图 像 的 Image 对 象 ， 但 不 包括 它 左下 
角 的 四 分 之 一 ? 
7. 对 Image 对 象 修改 后 ， 如 何 将 它 保存 为 图 像 文件 ? 
8. 什么 模块 包含 Pillow 的 形状 绘制 代码 ? 
9. Image 对 象 没有 绘制 方法 。 哪 种 对 象 有 ?如何 获 得 这 种 类 型 的 对 象 ? 






































仆人 上 wmDPP 一 
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17.7 “实践 项 目 
作为 实践 ， 编 程 完成 以 下 任务 。 

















17.7.1 扩展 和 修正 本 章 项 目的 程序 

本 章 的 resizeAndAddLogo.py 程序 使 用 PNG 和 JPEG 文件 , 但 Pillow 还 支持 许 
多 格式 ， 不 仅仅 是 这 两 个 。 扩 展 resizeAndAddLogo.py， 让 它 也 能 处 理 GIF 和 BMP 
图 像 。 
另 一 个 小 问题 是 ， 只 有 文件 扩展 名 小 写 时 ， 程 序 才 修改 PNG 和 JPEG 文件 。 例 
如 ， 它 会 处 理 zophie.png， 但 不 处 理 zophie.PNG。 修 改 代码 ， 让 文件 扩展 名 检查 不 
区 分 大 小 写 。 
最 后 ， 添 加 到 右 下 角 的 徽标 本 来 只 是 一 个 小 标记 ， 但 如 果 该 图 像 与 徽标 本 身 差 
不 多 大 ， 结 果 将 类 似 于 图 17-16。 修 改 resizeAndAddLogo.py， 使 得 图 像 必须 至 少 是 徽 

标的 两 倍 的 宽度 和 高 度 ， 然 后 才 粘 贴 微 标 。 和 否则 ， 它 应 该 跳 过 添加 徽标 。 
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图 17-16 如 果 图 像 不 比 徽标 大 很 多 ， 结 果 很 难看 。 


17.7.2 ”在 硬盘 上 识别 照片 文件 夹 


我 有 一 个 坏 习 惯 ,， 从 数码 相机 将 文件 传输 到 硬盘 的 临时 文件 夹 后 ， 会 忘记 这 些 
文件 来。 编程 扫描 整个 硬盘 ， 找 到 这 些 遗 忘 的 “照片 文件 夹 ”， 就 太 好 了 。 
编写 一 个 程序 ， 遍 历 硬盘 上 的 每 个 文件 来 ， 找 到 可 能 的 照片 文件 来 。 当 然 ， 首 
先 你 必须 定义 什么 是 “照片 文件 夹 ”。 假 定 就 是 超过 半数 文件 是 照片 的 任何 文件 夹 。 
你 如 何 定义 什么 文件 是 照片 ? 

首先 ， 照 片 文件 必须 具有 文件 扩展 名 .png 或 jpg。 此 外 ， 照 片 是 很 大 的 图 像 。 
照片 文件 的 宽度 和 高 度 都 必须 大 于 500 像素 。 这 是 安全 的 假定 ， 因 为 大 多 数 数码 相 
机 照片 ， 宽 度 和 高 度 都 是 几 和 干 像素 。 

作为 提示 ， 下 面 是 这 个 程序 的 粗略 框架 : 


#! python3 
# Import modules and write comments to describe this program . 














































































































for foldername, subfolders, filenames in os.walk('C:\\'): 
numPhotoFiles = 0 
numNonPhotoFiles = 0 
for filename in filenames: 
# Check if file extension isn't .png or .jpg. 


if TODO: 
numNonPhotoFiles += 1 
continue # skip to next filename 


# Open image file using Pillow. 


# Check if width & height are larger than 500. 

if TODO: 
# Image is large enough to be considered a photo. 
numPhotoFiles += 1 

else: 
# Image is too small to be a photo. 
numNonPhotoFiles += 1 
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# If more than half of files were photos 
# print the absolute path of the folder. 
if TODO: 

print (TODO) 








17.7.3 ”定制 的 座位 卡 




















了 


程序 运行 时 ， 它 应 该 在 屏幕 上 打印 所 有 照片 文件 夹 的 绝对 路 径 。 























第 13 章 包含 了 一 个 实践 项 目 ， 利 用 纯 文 本 文件 的 客人 名 单 ， 创 建 定 制 的 邀请 函 。 


作为 附加 项 目 ， 请 使 用 Pilow 模块 ， 为 客人 创建 定制 的 座位 卡 图 像 。 从 http:/nostarch. 
com/automatestuff/ 下 载 资源 文件 guests.txt， 对 于 其 中 列 出 的 客人 , 生成 带 有 客人 名 字 和 
一 些 鲜花 装饰 的 图 像 文件 。 在 http://mostarch.com/automatestuff/ 的 资源 中 ， 包 含 一 个 版 














权 为 公共 领域 的 鲜花 图 像 。 
为 了 确保 每 个 座位 卡 大 小 相同 ， 在 图 









































像 的 边缘 添加 一 个 黑色 的 














E 形 ， 这 样 在 











图 


像 打印 出 来 时 , 可 以 沿线 剪裁 。 Pillow 生成 的 PNG 文件 被 设置 为 每 英寸 72 个 像素 ， 
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因此 4X5 英寸 的 卡片 需要 288X360 像素 的 图 像 。 




















人 用 户 坐 在 计算 机 前 一 样 
自动 化 看 成 是 对 
或 移动 鼠标 。 对 于 涉及 许 











请 将 GUI 


$118= 


用 GUI 自动 化 控制 键盘 和 鼠标 











知道 用 了 
Python 模 撕 














程序 



































用 交互 一 样 。 





操作 的 应 用 程序 。 
直接 控制 键盘 和 鼠 
们 发 送 虚 拟 的 击 
这 和 


编辑 电子 表格 、 下 载 文件 











， 是 很 有 用 的 。 但 有 
在 计算 机 上 自动 化 任务 
由 标 。 这 些 程序 可 
就 像 你 
技术 被 称 为 “图 形 用 户 界 面 上 


























建 和 鼠标 点 击 ， 




















称 为 “GUI 自 
































动 化 ” 
， 能 做 任何 事情 ， 
个 机 械 臂 编程 。 你 可 以 对 机 机 


有 了 GUI 
除了 将 咖 

















F 多 无 脑 点 














时 候 ， 





和 运行 程序 的 各 种 
就 是 没有 模块 对 应 你 要 
的 终极 工具 


























< 就 是 写 











es 
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其 他 应 用 ， 向 它 





自己 坐 在 计算 机 前 与 应 
































或 填 表 的 任务 ， 这 种 技术 特别 有 用 


自动 化 ， 你 的 程序 就 像 一 
啡 滩 在 键盘 上 。 
避 编 程 ， 让 它 敲 键盘 








动 化 ” 或 简 
个 活 
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pyautogui 模块 包含 了 一 些 函 数 ， 可 以 模拟 鼠标 移动 、 按 甸 和 深 动 鼠标 滚轮。 本 章 只 





介绍 了 pyautogui 功能 的 子 集 。 可 以 在 http://pyautogui.readthedocs.org/ 找 到 完整 的 文档 。 














18.1 安装 pyautogui 模块 


pyautogui 模块 可 以 向 Windows、 
据 你 使 用 的 操作 系统 ， 在 安装 pyautogui 之 前 ， 可 








2 下 
能 需要 





OS X 和 Linux 发 送 虚 拟 按键 和 鼠标 点 击 。 
安装 一 些 其 他 模块 〈 称 为 




















依赖 关系 )。 
。 在 Windows 上 ， 不 需要 安装 其 他 模块 。 
。 在 OS X 上， 运行 sudo pip3 install pyobjc-framework-Quartz，sudo pip3 install 





pyobjc-core， 然 后 sudo pip3 install pyobjc。 

。 在 Linux 上 ， 运 行 sudo pip3 install python3-xlib，sudo apt-get install scrot，sudo 
apt-get install python3- 人 k， 以 及 sudo apt-get install python3-dev (Scrot 是 
PyAutoGUI 使 用 的 屏幕 快照 程序 )。 

在 这 些 依 赖 安装 后 ,运行 pip install pyautogui( 或 在 OS X 和 Linux 上 运行 pip3 )， 
安装 pyautogui。 

附录 A 有 安装 第 三 方 模块 的 完整 信息 。 要 测试 PyAutoGUI 是 否 正 确 安装 ， 就 
在 交互 式 环 境 运 行 import pyautogui， 并 检查 出 错 信息 。 



























































18.2 走 对 路 


在 开始 GUI 自动 化 之 前 , 你 应 该 知道 如 何 避 免 可 能 发 生 的 问题 Python 能 以 想 
象 不 到 的 速度 移动 鼠标 并 击 键 。 实际 上 ， 它 可 能 太 快 ， 导致 其 他 程序 跟 不 上 。 而 且 ， 
如 果 出 了 问题 , 但 你 的 程序 继续 到 处 移动 鼠标 , 可 能 很 难 搞 清楚 程序 到 底 在 做 什么 ， 
或 者 如 何 从 问题 中 恢复 。 就 像 迪 斯 尼 电 影 《 魔 法 师 的 学 徒 》 中 的 魔法 扫 帅 ， 它 不 断 
地 向 米 老 鼠 的 浴缸 注水 《〈 然 后 水 溢出 来 )， 你 的 程序 可 能 失去 控制 ， 即 使 它 完美 地 
执行 你 的 指令 。 如 果 程 序 自己 在 移动 鼠标 ， 停 止 它 可 能 很 难 ， 你 不 能 点 击 IDLE 窗 
口 来 关闭 它 。 好 在 ， 有 几 种 方法 来 防止 或 恢复 GUI 自动 化 问题 。 


















































































































































18.2.1 通过 注销 关闭 所 有 程序 

停止 失去 控制 的 GUI 自动 化 程序 ， 最 简单 的 方法 可 能 是 注销 ， 这 将 关闭 所 有 
运行 的 程序 。 在 Windows 和 Linux 上 ， 注 销 的 热 键 是 Ctrl-Alt-Del。 在 OS X， 热 键 
是 中 -ShiftrOption-Q 。 通 过 注销 ， 你 会 丢失 所 有 未 保存 的 工作 ， 但 至 少 不 需 要 等 计算 


机 完全 重启 。 
























































18.2.2 ”暂停 和 自动 防 故障 装置 
你 可 以 告诉 脚本 在 每 次 函数 调用 后 等 一 会 儿 ， 在 出 问题 的 时 候 ， 让 你 有 很 短 的 
时 间 窗 口 来 控制 鼠标 和 键盘 。 要 做 到 这 一 点 ， 将 pyautogui.PAUSE 变量 设置 为 要 和 暂 
停 的 秒 数 。 例 如 ， 在 设置 pyautogui.PAUSE = 1.5 之 后 ， 每 个 PyAutoGUI 函数 调用 
在 执行 动作 之 后 ， 都 会 等 待 一 秒 半 。 非 PyAutoGUI 指令 不 会 停顿 。 
pyautogui 也 有 自动 防 故障 功能 ,将 鼠标 移 到 屏幕 的 左上 角 , 这 将 导致 pyautogui 
产生 pyautogui .FailSafeException 异常 。 你 的 程序 可 以 用 try 和 except 语句 来 处 理 这 

































































352 “Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 











个 异常 ， 也 可 以 让 异常 导致 程序 崩溃 。 这 两 种 情况 下 ， 如 果 你 尽 可 能 快 地 向 左上 移 
动 鼠标 ， 自 动 防 故障 功能 都 将 停止 程序 。 可 以 设置 pyautogui. FAILSAFE = False， 禁 
止 这 项 功能 。 在 交互 式 环境 中 输入 以 下 内 容 : 

>>> import pyautogui 


>>> pyautogui.PAUSE = 1 
>>> pyautogui.FAILSAFE = True 







































































这 里 我 们 导入 pyautogui， 并 将 pyautogui.PAUSE 设置 为 1， 即 每 次 函数 调用 后 
暂停 一 秒 。 将 pyautogui.FAILSAFE 设置 为 True， 局 动 自动 防 故障 功能 。 

















18.3 ”控制 鼠标 移动 


在 本 节 中 ， 你 将 学 习 如 何 利用 pyautogui 移动 鼠标 ， 追 踪 它 在 屏幕 上 的 位 置 ， 
但 首先 需要 理解 pyautogui 如 何 处 理 坐 标 。 

pyautogui 的 鼠标 函数 使 用 x、y 坐标 。 图 18-1 中 展示 了 计算 机 屏幕 的 坐标 系统 。 
它 与 17 章 中 讨论 的 图 像 坐 标 系统 类 似 。 原 点 的 x、y 都 是 零 ， 在 屏幕 的 左上 角 。 问 
右 X 坐 标 增加 ， 向 下 y 坐标 增加 。 所 有 坐标 都 是 正 整 数 ， 没 有 负数 坐标 。 





























































































































(1919,0) 可 


(1919,1079) 





18-1 分辨 率 为 1920 x 1080 的 计算 机 屏幕 上 的 坐标 














分 辨 率 是 屏幕 的 宽 和 高 有 多 少 像素 。 如 果 屏 幕 的 分 辨 率 设 置 为 1920 x 1080, 那 
么 左上 角 的 坐标 是 (0，0)， 右 下 角 的 坐标 是 (1919，1079)。 

pyautogui.size() 函数 返回 两 个 整数 的 元 组 ， 包 含 屏幕 的 宽 和 高 的 像素 数 。 在 交 
互 式 环境 中 输入 下 面 内 容 : 
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>>> import pyautogui 
>>> pyautogui.size() 
(1920，1080) 
>>> width, height = pyautogui.size() 

在 分 辩 率 为 1920 x 1080 的 计算 机 上 ，pyautogui.size() 返回 (1920，1080)。 
据 屏幕 分 辨 率 的 不 同 ， 返 回 值 可 能 不 一 样 。 你 可 以 将 来 自 pyautogui.size( 的 宽 和 高 
存在 变量 中 ， 如 width 和 height， 让 程序 的 可 读 性 更 好 。 


18.3.1 移动 鼠标 
既然 你 理解 了 屏幕 坐标 ， 就 让 我 们 来 移动 鼠标 。pyautogui.moveTo() 函数 将 鼠 

标 立 即 移动 到 屏幕 的 指定 位 置 。 表 示 x、y 坐标 的 整数 值 分 别 构成 了 函数 的 第 一 个 
和 第 二 个 参数 。 可 选 的 duration 整数 或 浮 点 数 关 键 字 参数 ， 指 定 了 将 鼠标 移 到 目的 
位 置 所 需 的 秒 数 。 如 果 不 指定 , 默认 值 是 零 , 表示 立即 移动 (在 PyAutoGUI 函数 中 ， 
所 有 的 duration 关键 字 参 数 都 是 可 选 的 )。 在 交互 式 环境 中 输入 以 下 内 容 : 
>>> import pyautogui 
>>> for i in range(10): 

pyautogui.moveTo(100, 100, duration=0.25) 

pyautogui.moveTo(200，100，duration=0.25) 


pyautogui.moveTo(200，200，duration=0.25) 
pyautogui.moveTo(100，200，duration=0.25) 


这 个 例子 根据 提供 的 坐标 ， 以 正方 形 的 模式 顺 时 针 移动 鼠标 ， 移 动 了 10 次 。 
次 移动 耗 时 0.25 秒 ， 因 为 有 关键 字 参 数 指 定 duration=0.25。 如 果 没 有 指定 函数 调用 
的 第 三 个 参数 ， 鼠 标 就 会 马上 从 一 个 点 移 到 另 一 个 点 。 
pyautogui.moveRel0 函数 相对 于 当前 的 位 置 移动 鼠标 。 下 面 的 例子 同样 以 正方 
的 模式 移动 鼠标 , 只 是 它 从 代码 开始 运行 时 鼠标 所 在 的 位 置 开 始 , 按 正 方形 移动 ; 
>>> import pyautogui 
>>> for i in range(10): 
pyautogui.moveRel(100, 0, duration=0.25) 
pyautogui.moveRel(0, 100, duration=0.25) 


pyautogui.moveRel(-100, 0, duration=0.25) 
pyautogui.moveRel(0, -100, duration=0.25) 


pyautogui.moveRel0 也 接受 3 个 参数 : 向 右 水 平移 动 多 少 个 像素 ， 向 下 垂直 移 
动 多 少 个 像素 , 以 及 (可 选 的 ) 花 多 少时 间 完 成 移动 。 为 第 一 第 二 个 参数 提供 负 整数 ， 
鼠标 将 向 左 或 向 上 移动 。 




























































































































































































18.3.2 ”获取 鼠标 位 置 
通过 调用 pyautogui.position() 函数 ， 可 以 确定 鼠标 当前 的 位 置 。 它 将 返回 函数 
调用 时 ， 鼠 标 x、y 坐标 的 元 组 。 在 交互 式 环境 中 输入 以 下 内 容 ， 每 次 调用 后 请 移 


动 鼠标 ; 
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>>> pyautogui.position() 
(311，622) 
>>> pyautogui.position() 
(377，481) 
>>> pyautogui.position() 
(1536, 637) 


当然 ， 返 回 值 取 决 于 鼠标 的 位 置 。 





18.4 项 目 :“ 现 在 鼠标 在 哪里 ? ” 


能 够 确定 鼠标 的 位 置 ， 对 于 建立 GUI 自动 化 脚本 是 很 重要 的 。 但 光 看 屏幕 ， 几 
乎 不 能 弄 清 楚 像 素 的 准确 坐标 。 如 果 有 一 个 程序 在 移动 鼠标 时 随时 显示 x y 坐标 ， 


















































就 会 很 方便 。 
总 的 来 说 ， 你 希望 该 程序 做 到 : 








十 FA 


。 获得 鼠标 当前 的 xy 坐标 。 

。 当 鼠 标 在 屏幕 上 移动 时 ， 更 新 这 些 坐 标 。 
这 意味 着 代码 需要 做 到 下 列 事情 : 

。 调用 函数 取得 当前 坐标 。 

。 在 屏幕 上 打印 回 退 制 服 。 删 除 以 前 打印 的 坐标 。 

。 处 理 异常 。 让 用 户 能 按键 退出 。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 mouseNow.py。 


第 1 步 : 导入 模块 

程序 开始 是 这 样 的 : 

#! python3 

# mouseNow.py - Displays the mouse cursor's current position. 
import pyautogui 


print('Press Ctrl-C to quit.') 
#TODO: Get and print the mouse coordinates. 


程序 开始 导入 了 pyautogui 模块 ， 打 印 的 内 容 提醒 用 户 按 Ctrl-C 退出 。 


第 2 步 : 编写 退出 代码 和 无 限 循环 
可 以 用 无 限 while 循环 ， 不 断 打 印 通 过 mouse.position() 获得 的 当前 鼠标 坐标 。 
对 于 退出 程序 的 代码 ， 你 需要 捕捉 KeyboardInterrupt 异常 ， 它 会 在 用 户 按 
下 Ctrl-C 时 抛 出 。 如 果 不 处 理 这 个 异常, 它 会 向 用 户 显 示 丑 陋 的 调用 栈 和 出 错 信 息 。 
将 下 面 内 容 添加 到 程序 中 : 


#! python3 


# mouseNow.py - Displays the mouse cursor's current position. 
import pyautogui 
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print('Press Ctrl-C to quit.') 
try: 
while True: 
# TODO: Get and print the mouse coordinates. 
© except KeyboardInterrupt: 
© print('\nDone.') 


为 了 处 理 这 个 异常 , 将 无 限 while 循环 放 在 一 个 try 语句 中 。 当 用 户 按 下 Ctrl-C， 
程序 执行 将 转 到 except 子 句 @， 新 行 中 将 输出 Done@。 


第 3 步 : 获取 并 打印 鼠标 坐标 
while 循环 内 的 代码 应 该 获取 当前 鼠标 的 坐标 ， 提 供 好 看 的 格式 ， 并 打印 输出 。 
在 while 循环 内 添加 以 下 代码 : 


#! python3 
# mouseNow.py - Displays the mouse cursor's current position. 
import pyautogui 
print('Press Ctrl-C to quit.') 
--SNip-- 
# Get and print the mouse coordinates. 
x, y = pyautogui.position() 
positionStr = 'X: ' + str(x).rjust(4) + ' Y: ' + str(y).rjust(4) 
--SNip-- 
利用 多 重 赋值 的 技巧 ， 变 量 x、y 得 到 了 pyautogui.position() 返回 元 组 中 的 两 个 
整 型 值 。 将 x、y 传递 给 str0 函数 ， 可 以 得 到 整 型 坐标 的 字符 串 形式 。rjustO 字符 串 方 
法 将 对 坐标 右 调 整 ， 证 它们 占据 同样 的 宽度 ， 不 论 坐 标 是 一 位 、 两 位 、 三 位 或 四 位 
数字 。 连 接 右 调 准 的 字符 串 坐 标 ， 加 上 X: ' 和 'Y: ' 标签， 就 得 到 了 格式 化 好 的 字符 
串 ， 保 存在 positionStr 中 。 
在 程序 的 末尾 ， 添 加 以 下 代码 : 


#! python3 
# mouseNow.py - Displays the mouse cursor's current position. 
--SNip-- 
print(positionStr, end='') 
0 print('\b' * len(positionStr), end='', flush=True) 


这 将 在 屏幕 上 打印 positionStr。 printO 函数 的 关键 字 参 数 end=" 阻止 了 在 打印 行 
未 添加 默认 的 换行 字符 。 这 可 能 会 探 除 你 已 经 在 屏幕 上 打印 的 文本 ， 但 只 是 最 近 一 
行文 本 。 如 果 你 先 打印 了 一 个 换行 字符 ， 就 不 会 控 除 以 前 打印 的 内 容 。 

要 控 除 文本 ， 就 打印 \b 退 格 转 义 字符 。 这 个 特殊 字符 控 除 屏幕 当前 行 末尾 的 字 
符 。 代 码 行 @ 利 用 字符 串 复制 , 得 到 了 许多 \b 字符 构成 的 字符 串 ， 长度 与 positionStr 
中 保存 的 字符 串 长 度 一 样 ， 效 果 就 是 擦 除了 前 面 打印 的 字符 串 。 

printO 调用 打印 \b 退 格 键 字符 时 ， 总 是 传 入 flush=True (其 技术 上 的 理由 超出 
了 本 书 的 范围 )。 和 否则 ， 屏 幕 可 能 不 会 按期 望 更 新 。 

while 循环 重复 非常 快 ,用 户 实际 上 不 会 注意 到 你 在 屏幕 上 删除 并 重新 打印 整个 数 
字 。 人 例如， 如果 x 坐标 是 563， 鼠 标 右 移 一 个 像素 ， 看 起 来 就 像 563 中 的 3 变 成 了 4。 
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如 果 运 行程 序 ， 只 有 两 行 打印 输出 。 看 起 来 像 这 样 : 


Press Ctrl-C to quit. 
X: 290 Y: 424 








贡 











第 一 行 显示 指令 : 按 Ctrl-C 退出 。 
标 时 ， 会 变化 。 利 用 这 个 程序 ， 就 外 











第 二 行 显示 鼠标 坐标 ， 当 你 在 屏幕 上 移动 鼠 
清楚 鼠标 坐标 ， 用 于 你 的 GUI 自动 化 脚本 。 
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18.5 ”控制 鼠标 交互 


既然 你 知道 了 如 何 移动 鼠标 ， 弄 清楚 了 它 在 屏幕 上 的 位 置 ， 就 可 以 开始 点 击 、 
拖 动 和 滚动 鼠标 。 
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18.5.1 点 击 鼠 标 
要 向 计算 机 发 送 虚 拟 的 鼠标 点 击 ， 就 调用 pyautogui.click0 方法 。 默 认 情 况 下 ， 
点 击 将 使 用 鼠标 左 键 ， 点 击发 生 在 鼠标 当前 所 在 位 置 。 如 果 和 希望 点 击 在 鼠标 当前 位 
置 以 外 的 地 方 发 生 ， 可 以 传 入 x、y 坐标 作为 可 选 的 第 一 第 二 参数 。 
如 果 想 指定 鼠标 按键 ， 就 加 入 button 关键 字 参 数 ， 值 分 别 为 left'、'middle' 
或 Tight'。 例 如 ，pyautogui.click (100，150，button='left'〉 将 在 坐标 “(100，150) 
处 点 击 鼠 标 左 键 。 而 pyautogui.click (200，250，button=Yight') 将 在 坐标 (200, 250) 
处 点 击 右键 。 
在 交互 式 环境 

























































































输入 以 下 内 容 : 





>>> import pyautogui 
>>> pyautogui.click(10, 5) 


你 应 该 看 到 鼠标 移 到 屏幕 左上 角 的 位 置 ， 并 点 击 一 次 。 完 整 的 “点 击 ” 是 指 按 下 
鼠标 按键 ， 然 后 放 开 ， 同 时 不 移动 位 置 。 实 现 点 击 也 可 以 调用 pyautogui. mouseDown()， 
这 只 是 按 下 鼠标 按键 ， 再 调用 pyautogui.mouseUp0， 这 只 是 释放 鼠标 按键 。 这 些 函 数 
的 参数 与 click() 相同 。 实 际 上 ，click0 函数 只 是 这 两 个 函数 调用 的 方便 封装 。 
为 了 进一步 方便 ，Ppyautogui.doubleClick0 函数 只 执行 双击 鼠标 左 键 。 
pyautogui.rightClick() 和 pyautoguimiddleClick0 函数 将 分 别 执行 双击 右键 和 双击 中 键 。 













































































































































































18.5.2 ” 拖 动 鼠标 

“ 拖 动 ” 意 味 着 移动 鼠标 ， 同 时 按 住 一 个 按键 不 放 。 例 如 ， 可 以 通过 拖 动 文 们 
图 标 ， 在 文件 夹 之 间 移 动 文件 ， 或 在 日 历 应 用 中 移动 预约 。 

PyAutoGUI 提供 了 pyautogui.dragTo0 和 pyautogui.dragRel() 函数 ， 将 鼠标 拖 动 
到 一 个 新 的 位 置 ， 或 相对 当前 位 置 的 位 置 。dragTo0 和 dragRel0 的 参数 与 
moveITo0 和 moveRel( 相同 : x 坐标 /水 平移 动 ，y 坐标 /垂直 移动 ， 以 及 可 选 的 时 间 间 
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隔 ( 在 OSX 上 , 如 果 鼠 标 移 动 太 快 , 拖 动 会 不 对 , 所 以 建议 提供 duration 关键 字 参 数 )。 
要 尝试 这 些 函 数 ， 请 打开 一 个 绘图 应 用 ， 如 Windows 上 的 Paint，OS X 上 的 
Paintbrush， 或 Linux 上 的 GNU Paint( 如 果 没 有 绘图 应 用 ， 可 以 使 用 在 线 绘图 ， 网 
址 是 http://sumopaint.com/)。 我 将 使 用 PyAutoGUI 在 这 些 应 用 中 绘图 。 
让 鼠标 停留 在 绘图 应 用 的 画布 上 ， 同 时 选中 铅笔 或 画笔 工具 ， 在 新 的 文件 编辑 
窗口 中 输入 以 下 内 容 ， 保 存 为 spiralDraw.py: 


import pyautogui, time 
time.sleep(5) 
pyautogui.click() # click to put drawing program in focus 
distance = 200 
while distance > 0: 
pyautogui.dragRel(distance, 0, duration=0.2) # move right 
distance = distance - 5 
pyautogui.dragRel(0, distance, duration=0.2) # move down 
pyautogui.dragRel(-distance, 0, duration=0.2) # move left 
distance = distance - 5 
pyautogui.dragRel(0, -distance, duration=0.2) # move up 


在 运行 这 个 程序 时 ， 会 有 5 秒 钟 的 延迟 @， 让 你 选中 铅笔 或 画笔 工具 ， 并 让 鼠 
标 停 留 在 画图 工具 的 窗口 上 。 然 后 spiralDraw.py 将 控制 鼠标 ， 点 击 画 图 程序 获得 焦 
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点 外。 如 果 窗 口 有 闪烁 的 光标 ， 它 就 获得 了 “和 焦 点” 这 时 你 的 动作 〈 例 如 打字 ， 或 
这 个 例子 中 的 拖 动 鼠标 )， 就 会 影响 该 窗口 。 画 图 程序 获取 焦点 后 ，spiralDraw.py 





将 绘制 一 个 正方 形 旋转 图 案 ， 如 图 18-2 所 示 。 
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18-2 pyautogui.dragRel() 例子 的 结果 
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distance 变量 从 200 开始 ， 所 以 在 while 循环 的 第 一 次 迭代 中 ， 第 一 次 
dragRel0 调用 将 光标 向 右 拖 动 200 像素 ， 花 了 0.2 秒 @。 然 后 distance 降 到 195@， 
第 二 次 dragRel0 调用 将 光标 向 下 拖 动 195 像素 @。 第 三 次 dragRel0 调用 将 光标 水 平 
拖 动 -195〈 向 左 195) @，distance 降 到 190， 最 后 一 次 dragRel 调用 将 光标 向 上 拖 
动 190。 每 次 迭代 ， 鼠 标 都 向 右 、 向 下 、 向 左 、 向 上 拖 动 ，distance 都 比 前 一 次 欠 代 
小 一 点 。 通 过 这 段 代码 循环 ， 就 可 以 移动 鼠标 光标 ， 画 出 正方 形 旋转 图 案 。 

可 以 手工 画 出 这 个 流 涡 〈 或 者 说 用 鼠标 )， 但 一 定 要 画 得 很 慢 ， 才 能 这 么 精确 。 


pyautogui 能 够 几 秒 钟 就 画 完 。 

























































































































































































注意 你 可 以 在 代码 中 使 用 pillow 模块 的 画图 函数 ， 画 出 这 个 图 形 ， 更 多 信息 请 参见 
第 17 章 。 但 利用 GUI 自动 化 就 能 使 用 画图 程序 提供 的 高 级 画图 工具 ， 如 灰 度 、 不 同 
的 画笔 或 填充 工具 。 





18.5.3 ”滚动 鼠标 
最 后 一 个 pyautogui 鼠标 函数 是 scroll0)。 你 问 它 提供 一 个 整 型 参数 ， 说 明 向 上 
或 向 下 滚动 多 少 单 位 。 单 位 的 意义 在 每 个 操作 系统 和 应 用 上 不 一 样 ， 所 以 你 必须 试 
验 ， 看 看 在 你 的 情况 下 滚动 多 远 。 滚 动 发 生 在 鼠标 的 当前 位 置 。 传 递 正 整数 表示 向 
上 滚动 ， 传 递 负 整数 表示 向 下 滚动 。 将 鼠标 停留 在 IDLE 窗口 上 ， 在 IDLE 的 交互 
式 环境 中 运行 以 下 代码 : 


>>> pyautogui.scroll(200) 


你 会 看 到 IDLE 轻松 地 向 上 滚动 ， 然 后 又 向 下 滚 回来 。 发 生 向 下 滚动 是 因为 ， 
在 执行 完 指 令 后 ，IDLE 自动 向 下 深 动 到 底部 。 输 入 以 下 代码 作为 替代 : 


>>> import pyperclip 
>>> numbers = "" 
>>> for i in range(200): 
numbers = numbers + str(i) + '\n’' 



























































































































































>>> pyperclip.copy (numbers) 


这 导入 了 pyperclip， 并 建立 一 个 空 字 符 串 numbers。 代 码 然后 循环 200 个 数字 ， 
将 每 个 数字 和 换行 符 加 入 numbers。 在 pyperclip.copy (numbers) 之 后 ， 剪 贴 板 中 将 
保存 200 行 数字 。 打 开 一 个 新 的 文件 编辑 窗口 ， 将 文本 粘贴 进去 。 这 将 得 到 一 个 很 
大 的 文本 窗口 ， 让 你 尝试 滚动 。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> Import time, pyautogui 
>>> time.sleep(5); pyautogui.scroll(100) 


企 第 二 行 ， 输 入 的 两 条 命令 以 分 号 分 隔 ， 这 告诉 Python 在 运行 这 些 命令 时 ， 就 
像 它们 在 独立 的 行 中 一 样 。 唯 一 的 区 别 在 于 ， 交 互 式 环境 不 会 在 两 个 命令 之 间 提 示 
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你 输入 。 这 对 于 这 个 例子 很 重要 ， 因 为 我 们 希望 pyautogui.scroll( 调 / 
， 虽 然 在 交互 式 环境 中 ， 将 两 条 命令 放 在 一 行 中 可 能 有 用 ， 但 在 你 























动 发 生 ( 请 注 ; 
的 程序 中 ， 还 是 应 该 让 每 条 命令 独占 一 行 )。 








而 














I 
































按 下 回 车 运行 代码 后 ， 你 有 5 秒 钟 的 时 间 点 击 文件 编辑 窗口 ， 

















18.6 ”处 理 屏 幕 


在 5 秒 钟 的 延迟 结束 后 ，pyautogui.scroll0 调用 将 导致 文件 编辑 窗 





























j 在 等 待 之 后 自 





























\ 上 > 寺 RM 日 从 
让 它 获得 焦点 。 


口 向 上 演 





动 。 


你 的 GUI 自动 化 程序 没有 必要 盲目 地 点 击 和 输入 。pyautogui 拥有 屏幕 快照 的 
































功能 ， 可 以 根据 当前 屏幕 的 内 容 创 建 图 形 文件 。 这些 函 数 也 可 以 返 
Image 对 象 ， 包 含 当前 屏幕 的 内 容 。 如 果 你 是 跳跃 式 地 阅读 本 书 ， 可 






































17 章 ， 安 装 pilow 模块 ， 然 后 再 继续 本 节 的 内 容 









































或 OSX， 就 跳 过 这 一 步 ， 继 续 本 节 的 内 容 。 


18.6.1 获取 屏幕 快照 














o 















































回 一 个 Pillow 的 


能 需要 阅读 第 


人 恭 下 





在 Linux 计算 机 上 ， 需 要 安装 scrot 程序 ， 才 能 在 pyautogui 中 使 用 屏幕 快照 功 


能 。 在 终端 窗口 中 , 执行 sudo apt-get install scrot, 安装 该 程序 。 如 果 你 使 用 Windows 


要 在 Python 中 获取 屏幕 快照 ， 就 调用 pyautogui.screenshot( 函数 。 在 交互 式 环 





境 中 输入 以 下 内 容 : 


>>> import pyautogui 
>>> im = pyautogui.screenshot() 





im 变量 将 包含 一 个 屏幕 快照 的 Image 对 象 。 现 在 可 以 调用 im 变量 中 Image 对 
象 的 方法 ， 就 像 所 有 其 他 Image 对 象 一 样 。 在 交互 式 环境 中 输入 以 下 内 容 : 























>>> im.getpixel((0，0)) 
(176，176，175) 

>>> im.getpixel((50，200)) 
(130，135，144) 





向 getpixel0 函数 传 入 坐标 元 组 ， 如 〈0，0) 或 (50，200)， 它 将 告诉 你 图 像 中 
这 些 坐 标 处 的 像素 颜色 。getpixel0 函数 的 返回 值 是 一 个 RGB 元 组 ， 包 含 3 个 整数 ， 表 





示 像 素 的 红 绿 蓝 值 ( 没 有 第 四 个 值 表示 alpha， 因 





























就 是 你 的 程序 “看 到 ”当前 屏幕 上 内 容 的 方法 。 




















18.6.2 ”分析 屏幕 快照 


假设 你 的 GUI 自动 化 程序 中 ,有 一 步 是 点 击 灰 色 按 钮 ,在 调用 click0 方法 之 前 ， 
灰色 按钮 不 一 样 ， 

















你 可 以 获取 屏幕 快照 , 查看 脚本 要 点 击 处 的 像素 。 
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那么 程序 就 知道 出 问题 了 。 也 许 窗口 发 生 了 意外 的 移动 ， 或 者 弹 





为 屏幕 快照 是 完 











全 不 透明 








如 果 它 的 颜色 和 
































日 式 对 话 相 





的 )。 这 








EE 挡住 了 


该 按钮 。 这 时 ， 不 应 该 继续 
“看 到 ” 它 没有 点 击 在 



































如 果 屏 幕 上 指定 的 x、y 坐标 处 的 
PixelMatchesColor0 函数 将 
三 个 参数 是 一 个 元 组 ， 


[ 























式 环境 : 





>>> import pyautogui 
>>> im = pyautogui.screenshot() 









































(可 能 会 点 击 到 错误 的 东 
正确 的 东 i 上， 并 自行 停止 。 
象 素 与 指定 的 颜色 匹 
返回 Tue。 第 一 和 第 二 








包含 3 个 整数 ， 


输入 以 下 内 容 : 

































































































































































5， 造 成 严重 破坏 )， 程 序 可 以 


配 ，PyAutoGUI 的 
个 参数 是 整数 ， 对 应 x 和 y 坐标 。 第 
是 屏幕 像素 必须 





匹配 的 RGB 颜色 。 在 交互 




































































© >>> im.getpixel((50, 200)) 
(130，135，144) 

@ >>> pyautogui.pixelMatchesColor(50, 200, (130, 135, 144)) 
True 

© >>> pyautogui.pixelMatchesColor(50, 200, (255, 135，, 144)) 
False 

在 获取 屏幕 快照 ， 并 用 getpixel0 函数 取得 特定 坐标 处 像素 颜色 的 RGB 元 组 之 

后 @， 将 同样 的 坐标 和 RGB 元 组 传递 给 pixelMatchesColor0 @， 这 应 该 返回 True。 
然后 改变 RBG 元 组 中 的 一 个 值 ， 用 同样 的 坐标 再 次 调用 pixelMatches Color( @， 
这 应 该 返回 False。 你 的 GUI 自动 化 程序 要 调用 click0 之 前 ， 这 种 方法 应 该 有 用 。 
请 注意 ,给 定 坐 标 处 的 颜色 应 该 “完全 ”匹配 。 即 使 只 是 稍 有 差异 〈 例 如 ， 是 (255， 
255，254) 而 不 是 (255，255，255 ))， 那 么 函数 也 会 返回 False。 


18.7 








y 坐标 ， 
改 为 : 


#1! 


--SNip-- 


--SNip-- 


现在 ， 如 果 运 行 mouseNow.py， 那 么 输 


色 值 。 





项 目 : 扩展 mouseNow 程序 
可 以 扩 








展 本 章 前 面 的 mouseNow.py 项 目 ， 让 它 不 仅 给 出 外 











前 位 置 的 x、 


也 给 出 这 个 像素 的 RGB 颜色 。 将 mouseNow.py 中 while 循环 内 的 代码 修 


python3 
# mouseNow.py - 


positionStr = 


‘Xx: 


+ str(x).rjust(4) + ' Y: 


Displays the mouse cursor's current position. 


"+ str(y).rjust(4 


pixelColor = pyautogui.screenshot().getpixel((x, y)) 


positionStr += 


' RGB: (' 


positionStr += "' 
positionStr += "' 


print(positionStr, end=" 





Press Ctrl-C to quit. 


X: 406 Y: 


17 RGB: 


3 


3 


(161， 


+ Str(pixelColor[0]).rjust(3) 


"+ str(pixelColor[1]).rijust(3) 
"+ str(pixelColor[2]).rjust(3) + ')' 


50，50) 


'") 
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这 个 信息 ， 配 合 pixelMatchesColor() 函数 ， 应 该 使 得 给 GUI 自动 化 脚本 添加 颜 
色 检 查 变 得 容易 。 











18.8 ”图 像 识别 


但 是 ， 如 果 事 先 不 知道 应 该 点 击 哪里 ， 怎 么 办 ?可 以 使 用 图 像 识别 。 癌 
PyAutoGUI 提供 希望 点 击 的 图 像 ， 让 它 去 弄 清楚 坐标 。 

例如 ， 如 果 你 以 前 获得 了 屏幕 快照 ,截取 了 提交 按钮 的 图 像 ， 保 存 为 submit.png， 那 
么 locateOnScreen0 函数 将 返回 图 像 所 在 处 的 坐标 。 要 了 解 locateOnScreen0 函 数 的 
工作 方式 ， 请 获取 屏幕 上 一 小 块 区 域 的 屏幕 快照 ， 保 存 该 图 像 ， 并 在 交互 式 环境 中 
输入 以 下 内 容 ， 用 你 的 屏幕 快照 文件 名 代替 'submit. png': 


>>> import pyautogui 
>>> pyautogui.locateOnScreen('submit.png') 
(643, 745, 70, 29) 


locateOnScreen() 函数 返回 4 个 整数 的 元 组 , 是 屏幕 上 首次 发 现 该 图 像 时 左边 的 
x 坐标 、 顶 边 的 y 坐标 、 宽 度 以 及 高 度 。 如 果 你 用 自己 的 屏幕 快照 ， 在 你 的 计算 机 
尝试 ， 那 么 返回 值 会 和 这 里 显示 的 不 一 样 。 
如 果 屏 幕 上 找 不 到 该 图 像 ，locateOnScreen0 函数 将 返回 None。 请 注意 要 成 功 
识别 ， 屏 幕 上 的 图 像 必须 与 提供 的 图 像 完 全 匹配 。 即 使 只 差 一 个 像素 ，locateOn 
Screen() 函数 也 会 返回 None。 
如 果 该 图 像 在 屏幕 上 能 够 找到 多 人 处 ，locateAllOnScreen() 函数 将 返回 一 个 
Generator 对 象 。 可 以 将 它 传递 给 list() ， 返 回 一 个 4 整数 元 组 的 列表 。 继 续 在 交互 
式 环境 的 例子 中 输入 以 下 内 容 〈 用 你 自己 的 图 像 文件 名 取代 'Submit.png'); 


>>> list(pyautogui.locateAllOnScreen('submit.png')) 
[(643, 745, 70, 29), (1007, 801, 70, 29)] 


每 个 4 整数 元 组 代表 了 屏幕 上 的 一 个 区 域 。 如 果 图 像 只 找到 一 次 ， 返 回 的 列表 
就 只 包含 个 元 组 o 
在 得 到 图 像 所 在 屏幕 区 域 的 4 整数 元 组 后 ， 就 可 以 点 击 这 个 区 域 的 中 心 。 将 元 
组 传递 给 center0 函数 ， 它 将 返回 该 区 域 中 心 的 x、y 坐标 。 在 交互 式 环境 中 输入 以 
下 内容， 用 你 自己 的 文件 名 、4 整数 元 组 和 坐标 对 ， 来 取代 参数 : 


>>> pyautogui.locateOnScreen('submit.png') 
(643, 745, 70, 29) 

>>> pyautogui.center((643, 745, 70, 29)) 
(678, 759) 

>>> pyautogui.click((678, 759)) 


用 center0 得 到 中 心 坐标 后 ， 将 click0 坐标 传递 给 函数 ， 就 会 点 击 屏幕 上 该 
域 的 中 心 ， 这 个 区 域 匹 配 你 传递 给 locateOnScreen0 函数 的 图 像 。 
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18.9 ”控制 键盘 


pyautogui 也 有 一 些 函 数 向 计算 机 发 送 虚 拟 按键 ， 让 你 能 够 填充 表格 ， 或 在 应 用 
中 输入 文本 。 














18.9.1 通过 键盘 发 送 一 个 字符 串 

pyautogui.typewrite() 函数 向 计算 机 发 送 虚 拟 按 键 。 这 些 按键 产生 什么 效果 ， 取 
决 于 当前 获得 焦点 的 窗口 和 文本 输入 框 。 可 能 需要 先 向 文本 输入 框 发 送 一 次 鼠标 点 
击 ， 确 保 它 获得 焦点 。 

举 一 个 简单 的 例子 ， 让 我 们 用 Python 自动 化 在 文件 编辑 窗口 中 输入 Hello 
world!。 首 先 ， 打 开 一 个 新 的 文件 编辑 窗口 ， 将 它 放 在 屏幕 的 左上 角 ， 以 便 
pyautogui 点 击 正确 的 位 置 ， 让 它 获 得 焦点 。 然 后 ， 在 交互 式 环境 中 输入 以 下 内 容 : 
>>> pyautogui.click(100, 100); pyautogui.typewrite('Hello world!') 

请 注意 ， 在 同一 行 中 放 两 条 命令 ， 用 分 号 隔 开 ， 这 让 交互 式 环境 不 会 在 两 个 指 
令 之 间 提 示 输 入 。 这 防止 了 你 在 clickO0 和 typewrite0) 调用 之 间 ， 不 小 心 让 新 的 窗口 
获得 焦点 ， 从 而 让 这 个 例子 失败 。 

Python 首先 在 坐标 100，100) 处 发 出 虚拟 鼠标 点 击 ， 这 将 点 击 文件 编辑 窗口 ， 
让 它 获 得 焦点 。typewrite0 函数 调用 将 向 窗口 发 送 文 本 Hello world!， 结 果 就 像 图 
18-3。 现 在 有 了 蔡 你 打字 的 代码 ! 











































































































r- 它 

















注 python 3.4.0 Shell 
ile_ Edit Shell 









| Untitled - Notepad 
File Edit Format View Help 
Hello world!| 

















Ln1, Col 13 








>>> import pyautogui 
>>> pyautogui.click('left', 100, 100); pyautogui.typewrite('Hello world!') 
>>> 








18-3 用 PyAutogGUI 点 击 文件 编辑 器 窗口 ， 在 其 中 输入 Hello world! 


默认 情况 下 ，typewrite0 函数 将 立即 打印 出 完整 字符 串 。 但 是 ， 你 可 以 传 入 可 选 的 
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第 二 参数 ， 在 每 个 字符 之 间 添 加 短 时 间 和 暂停 。 例 如 ，pyautogui.typewrite (Helloworld'， 








0.25) 将 在 打出 H 后 等 待 /4 秒 。 打 出 e 以 后 再 等 待 






























































1/4 秒 ， 如 此 等 等 。 这 








种 渐进 的 打字 


机 效果 ， 对 于 较 慢 的 应 用 可 能 有 用 ， 它 们 处 理 击 键 的 速度 不 够 快 ， 跟 不 上 pyautogui。 





对 于 A 或! 这样 的 字符 ，pyautogui 将 自动 模拟 按 住 Shift 键 。 





18.9.2 键 名 





























a 
































'enter' 表示 Enter。 




















不 是 所 有 的 键 都 很 容易 用 单个 文本 字符 来 表示 。 例 如 ， 如 何 把 Shift 键 或 左 箭 头 
键 表 示 为 单个 字符 ? 在 PyAutoGUI 中 , 这 些 键 表示 为 短 的 字符 串 值 : esc 








表示 Esc 键 ， 


除了 单个 字符 串 参 数 ， 还 可 以 向 typewrite0 函数 传递 这 些 键 字 符 串 的 列表 。 例 


















































如 ， 以 下 的 调用 表示 按 a 键 ， 然 后 是 b 键 ， 然 后 是 左 箭头 两 次 ， 最 后 是 X 和 了 键 : 

















>>> pyautogui.typewrite(['a', 'b', 'left', 'left', 'X', 'Y']) 











内 为 按 下 左 往 头 将 移动 键盘 光标 ， 所 以 这 会 输 











H XYab。 表 18-1 列 日 





HT pyautogui 





的 键盘 键 字符 串 ， 你 可 以 将 它们 传递 给 typewrite0 函数 ， 模 拟 任何 按键 组 合 。 
表 ， 看 看 pyautogui 接受 的 所 有 可 
能 的 键 字符 串 。'shift 字符 串 指 的 是 左边 的 Shift 键 ， 它 等 价 于 'shiftleft'。'ctrl'、 




















也 可 以 查看 pyautogui.KEYBOARD_KEYS 列 














alt 和 'win' 字符 串 也 一 样 ， 它 们 都 是 指 左边 的 键 。 


表 18-1 PyKeyboard 属性 












































键盘 键 字 符 串 含义 

ee 单个 字符 的 键 

enter (or Teturn' or \n') 可 车 键 

'esc' Esc 键 
'Shiftleft，Sshiftright' 左右 Shift 键 

"altleft', 'altright' 左右 Alt 键 

‘ctrlleft', 'ctrlright' 左右 Ctrl 键 

tab' (or \t') Tab 键 

'backspace', 'delete' Backspace 和 Delete 键 
'pageup', pagedown' Page Up 和 Page Down 键 
‘home', 'end' Home 和 End 键 

up', ‘down', left, right' 上 下 左右 箭头 键 

fl 'f2', 3'， 等 等 Fl 至 F12 键 








静音 、 减 小 音量 、 放 大 音量 键 《 有 些 键盘 没有 这 些 键 ， 但 你 





‘volumemute', 'volumedown', 'volumeup' 


'pause' Pause 键 


的 操作 系统 仍 能 理解 这 些 模拟 的 按键 ) 
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键盘 键 字符 串 


续 表 
含义 





'capslock', numlock',，scrolllock' 


"insert' 


'printscreen’ 


"winleft，winright' 


"command ' 


"option 


18.9.3” 按 下 和 释放 键盘 
就 像 mouseDown0O 和 mouseUp0 函数 一 样 ，pyautogui.keyDown() 和 pyautogui. 
keyUp0 将 向 计算 发 送 虚 拟 的 按键 和 释放 。 它们 将 根据 参数 发 送 键 字符 串 (参见 表 18-1 )。 


18.9.4 

















方便 起 见 , pyautogui 提供 了 pyautogui.press0 函数 , 它 调 用 这 两 个 函数 ,模拟 完整 的 击 键 。 














Caps Lock，Num Lock 和 Scroll Lock 键 
Ins 或 Insert 键 

Prtsc 或 Print Screen 键 

左右 Win 键 (在 Windows 上 ) 
Command 键 (在 OSX 上 ) 

Option 键 (在 OSX 上 ) 





























运行 下 面 的 代码 ， 它 将 打印 出 美元 字符 (通过 按 住 Shift 键 并 按 4 得 到 ): 
>>> pyautogui.keyDown('shift'); pyautogui.press('4'); pyautogui.keyUp('shift') 


这 行 代码 按 下 Shift， 按 下 《并 释放 ) 4， 然 后 再 释放 Shift。 如 果 你 需要 在 文本 




















热 键 组 合 


输入 框 内 打 一 个 字符 串 ，typewrite0 函数 就 更 适 

















的 党 











数 来 做 到 这 




















适合 。 但 对 于 接受 单个 按键 命令 的 应 




















，press( 函数 是 更 简 证 





“ 热 键 ”或 “快捷 键 ” 是 一 种 按键 组 合 ， 
热 键 是 Ctrl-C (在 Windows 和 Linux 上 ) 或 中-C (在 OS X 上 )。| 
Ctrl 键 ,然后 按 C 键 ,然后 释放 C 和 Ctrl 键 ,要 | 


单 的 方式 。 


























巴 调 用 茶 种 应 用 功能 。 





拷贝 选择 内 容 
户 按 住 
j pyautogui 的 keyDown() 和 keyUp0 函 












































一 点 ， 必 须 畏 


pyautogui.keyDown('ctrl') 
pyautogui.keyDown('c') 
pyautogui.keyUp('c') 
pyautogui.keyUp('ctrl') 


这 相当 复杂 。 作 为 蔡 代 ， 可 以 使 用 pyautogui.hotkey( 函数 ， 





谷 入 以 下 代码 : 








它 接受 多 个 键 字符 串 




















参数 ， 按 顺序 按 下 ， 再 按 相 反 的 顺序 释放 。 例 如 对 于 Ctrl-C， 代 码 就 像 下 面 这 样 简单 : 


pyautogui.hotkey(' ctrl ' ， 
对 于 更 大 的 热 键 引 


合 显 示 Style〈 相 
4 次 keyUpO 调 


‘C1) 


昌 合 ， 这 个 函数 特别 有 用 。 








在 Word 中 ，Ctrl-Alt-Shift-S 热 键 组 














fF 式 ) 窗口 。 




















不 必 使 用 8 次 不 同 的 函数 调用 (4 次 keyDown( 调用 和 
































 )， 你 只 





4 要 调用 hotkey C'ctrl', 'alt', 'shift', 's')。 








在 屏幕 的 左上 角 打 开 一 个 新 的 IDLE 文件 编辑 窗口 ， 在 交互 式 环境 中 输入 以 下 
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~ 


内 容 (在 OSXF j 'ctrl 代 蔡 'alt'): 





>>> Import pyautogui, time 
>>> def commentAfterDelay() : 


0 pyautogui.click(100, 100) 

© pyautogui.typewrite('In IDLE, Alt-3 comments out a line.') 
time.sleep(2) 

© pyautogui.hotkey('alt', '3') 


>>> commentAfterDelay() 


这 定义 了 一 个 函数 commentAfterDelay0， 在 被 调用 时 ， 将 点 击 文件 编辑 窗口 ， 
让 它 获 得 焦点 @， 输 出 “In IDLE，Alt-3 comments out a line” 思 ， 和 暂停 2 秒 钟 ， 然 
后 模拟 按 下 Alt-3 热 键 (或 OS X 上 的 ctrl-3) @。 这 个 快捷 键 在 当前 行 加 上 两 个 # 
字符 ， 将 它 注 释 掉 (在 IDLE 中 编写 你 自己 的 代码 时 ， 这 是 一 个 有 用 的 技巧 ， 应 该 
知道 )。 





































































































18.10 复习 PyAutoGUI 的 函数 


本 章 介 绍 了 许多 不 同 函数 ， 下 面 是 快速 的 汇总 参考 : 

moveTo (x，y) 将 鼠标 移动 到 指定 的 x、y 坐标 。 

moveRel (xOffset，yOffset〉 相 对 于 当前 位 置 移动 鼠标 。 

dragTo (x，y) 按 下 左 键 移动 鼠标 。 

dragRel (xOffset，yOffset〉 按 下 左 键 ， 相 对 于 当前 位 置 移动 鼠标 。 
click (x，y，button ) 模拟 点 击 〈 默 认 是 左 键 )。 

rightClick0 模拟 右键 点 击 。 
middleClick0 模拟 中 键 点 击 。 
doubleClick( 模拟 左 键 双击 。 
mouseDown (x，y，button〉 模拟 在 x、y 处 按 下 指定 鼠标 按键。 
mouseUp (x，y，button〉 模拟 在 x、y 处 释放 指定 键 。 
scroll (units ) 模拟 滚动 滚轮 。 正 参数 表示 向 上 滚动 ， 负 参数 表示 向 下 滚动 。 
typewrite (message) 键入 给 定 消 息 字 符 串 中 的 字符 。 
typewrite ([key1，key2，key3]) 键入 给 定 键 字符 串 。 
press (key) 按 下 并 释放 给 定 键 。 
keyDown (key) 模拟 按 下 给 定 键 。 
keyUp (key) 模拟 释放 给 定 键 。 
hotkey ([key1，key2，key3]) 模拟 按 顺序 按 下 给 定 键 字 符 串 ， 然 后 以 相反 的 顺 


















































































































































序 释放 。 
screenshot() 返回 屏幕 快照 的 Image 对 象 〈( 参 见 第 17 章 关 于 Image 对 象 的 
信息 )。 
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18.11 项 目 : 自动 填 表 程序 


在 所 有 无 聊 的 任务 中 ， 填 表 是 最 烦人 的 。 到 了 现在 ， 在 最 后 一 章 的 项 目 中 ， 你 
将 搞定 它 。 假 设 你 在 电子 表格 中 有 大 量 的 数据 ， 必 须 重复 将 它 输 入 到 另 一 个 应 用 的 
表单 界面 中 ， 没 有 实习 生 帮 你 完成 。 尽 管 有 些 应 用 有 导入 功能 ， 让 你 上 传 包含 信息 
的 电子 表格 ， 但 有 时 候 似乎 没有 其 他 方法 ， 只 好 不 动脑 子 地 点 击 和 输入 几 个 小 时 。 
读 到 了 本 书 的 这 一 章 ， 你 “当然 ”知道 会 有 其 他 方法 。 

本 项 目的 表单 是 Google Docs 表单 ， 你 可 以 在 http:/nostarch.comy/automatestu 任 
找到 ， 如 图 18-4 所 示 。 






























































国 Generic Form 


€ SC https//docs.googlecom/spreadsheet/viewform?fromEn OH OD.f?@ 人 O22F=| 








Generic Form 

This form is for the GUI automation project fom Chapter 18 of "Automate the Boring Stuff with 
Python", available at http://automatetheboringstuff com 

* Required 


Name * 











Greatest Fear(s) 


What is the source of your wizard powers? 
Wand 








Robocop was the greatest action movie of the 1980s. 
下 


Strongly Disagree ©@® © ® StronglyAgree 


Additional Comments 














Submit 


Never submit passwords through Google Forms, 





18-4 ”本 项 目 用 到 的 表单 


总 的 来 说 ， 你 的 程序 应 该 做 到 : 
。 点 击 表单 的 第 一 个 文本 字段 。 
。 遍历 表单 ， 在 每 个 输入 栏 键入 信息 。 
e。 点 击 Submit 按钮 。 
。 用 下 一 组 数据 重复 这 个 过 程 。 
这 意味 着 代码 需要 做 下 列 事情 : 
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。 调用 pyautogui.click() 函数 ， 点 击 表单 和 Submit 按钮 。 

。 调用 pyautogui.typewrite() 函数 ， 在 输入 栏 输入 文本 。 

。 处 理 KeyboardInterrupt 异常 ， 这 样 用 户 能 按 Ctrl-C 键 退 出 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 formFiller.py。 


第 1 步 : 弄 清楚 步 3 

在 编写 代码 之 前 , 你 需要 弄 清楚 填写 一 次 表格 时 , 需要 的 准确 击 键 和 鼠标 点 击 
18.4 节 中 的 mouseNow.py 脚本 可 以 帮助 你 弄 清 楚 确切 的 鼠标 坐标 。 你 只 需要 知道 第 
一 个 文本 输入 栏 的 坐标 。 在 点 击 第 一 个 输入 栏 之 后 ， 你 可 以 Tab 键 ， 将 焦点 移 到 下 
一 个 输入 栏 。 这 让 你 不 必 弄 清楚 每 一 个 输入 栏 的 x、y 坐标 。 

下 面 是 在 表单 中 输入 数据 的 步骤 : 

1. 点 击 Name 输入 栏 〈 在 将 浏览 器 窗口 最 大 化 后 ， 用 mouseNow.py 程序 来 确 
定 坐标 。 在 OS X 上 ， 可 能 需要 点 击 两 次 : 一 次 让 浏览 器 获得 焦点 ， 第 二 次 让 Name 
输入 栏 获得 焦点 )。 

2. 键入 名 称 ， 然 后 按 Tab 键 。 

3， 键 入 最 大 的 恐惧 〈greatest fear)， 然 后 按 Tab 键 。 

4. 按 向 下 键 适 当 的 次 数 ， 选 择 魔 力 源 〈wizard power source): 一 次 是 Wand， 
两 次 是 Amulet， 三 次 是 Crystal ball， 四 次 是 money。 然 后 按 Tab 键 〈 请 注意 ,在 OS X 
中 ， 你 必须 为 每 次 选择 多 按 一 次 向 下 键 。 对 于 某 些 浏览 器 ， 你 也 需要 按 回 车 键 )。 

5. 按 向 右键 ， 选 择 RoboCop 问题 的 答案 。 按 一 次 是 2， 两 次 是 3， 三 次 是 4， 
四 次 是 5， 或 按 空 格 键 选 择 1〈 它 是 默认 加 亮 的 )。 然 后 按 Tab 键 。 

6. 键入 附加 的 备注 ， 然 后 按 Tab 键 。 
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小 























































































































































































































7. 按 回 车 键 ， 点 击 “Submit” 按 钮 。 
8. 在 提交 表单 后 ， 浏 览 器 将 转 到 一 个 页 面 。 然 后 你 需要 点 击 一 个 链接 ， 返 回 
到 表单 页 面 。 









































请 注意 ， 如 打 你 梢 后 再 次 运行 这 个 程序 ， 可 能 需要 更 新 眼 标点 击 的 坐标 ， 因为 浏览 
器 窗口 可 能 已 经 改变 了 位 置 。 要 避免 这 一 点 ， 请 一 直 确保 浏览 器 窗口 最 大 化 ， 然 后 再 寻 
找 第 一 个 表单 输入 框 的 坐标 。 而 且 ， 不 同 操作 系统 上 的 不 同 浏览 器 ， 工 作 起 来 可 能 点 

里 的 步 又 稍 有 不 同 ， 所 以 在 运行 程序 之 前 ， 要 确保 这 此 击 键 组 合适 合 你 的 计算 机 。 


第 2 步 : 建立 坐标 
在 浏览 器 中 载 入 示例 单 ( 图 18-4)， 并 将 浏览 器 窗口 最 大 化 。 打 开 一 个 新 的 
终端 窗口 或 命令 和 行 窗口， 来 运行 mouseNow.py 脚本 ,然后 将 鼠标 放 在 输入 框 上 ， 弄 
清楚 它 的 x、y 坐标 。 这 些 数 字 将 赋 给 程序 中 的 变量 。 同 时 ， 找 出 蓝 色 Submit 按钮 
的 x\y 坐 标 和 了 RBG 值 。. 这 些 值 将 分 别 赋 给 变量 submitButton 和 submitButtonColor。 
接 下 来 , 在 表单 中 填 入 一 些 假 的 数据 ,， 点击 Submit。 你 需要 看 到 下 一 个 页 面 的 样子 ， 
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以 便 使 




















#! python3 
# formFiller.py - 


import pyautogui, time 


程序 mouseNow.py 寻找 这 个 页 面 
让 你 的 源 代码 看 起 来 像 下 面 的 样子 。 确 保 用 自 























Submit another response 链接 的 坐标 。 




















己 测 试 得 到 的 坐标 代替 斜体 的 值 ; 














Automatically fills in the form. 


# Set these to the correct coordinates for your computer . 


nameField = (648，319) 











submitButton = (651，817) 

submitButtonColor = (75, 141, 249) 
submitAnotherLink = (760, 224) 

# TODO: Give the user a chance to kill the script. 
# TODO: Wait until the form page has loaded. 

# TODO: Fill out the Name Field. 

# TODO: Fill out the Greatest Fear(s) field. 

# TODO: Fill out the Source of Wizard Powers field. 
# TODO: Fill out the RoboCop field. 

# TODO: Fill out the Additional Comments field. 

# TODO: Click Submit. 


# TODO: 


# TODO: 


Wait until form page has loaded. 


Click the Submit another response link. 


现在 你 需要 实际 想 要 输入 这 张 表 格 的 数据 。 在 真实 世界 中 ， 这 些 数 据 可 能 3 



































但 对 于 这 个 项 目 ， 


#! python3 
# formFiller.py - 








自 











电子 表格 、 纯 文本 文件 或 某 个 网 站 。 可 能 需要 额外 的 代码 ， 将 数 
只 需要 将 这 些 数据 硬 5 























Automatically fills in the form. 


中 加 载 到 程序 中 。 


ij 码 给 一 个 变量 。 在 程序 中 加 入 以 下 代码 : 


--SNip-- 

formData = [{'name': 'Alice', 'fear': 'eavesdroppers', 'source': 'wand', 
'robocop': 4, 'comments': 'Tell Bob I said hi.'}, 
{'name': 'Bob', 'fear': 'bees', 'source': 'amulet', 'robocop': 4， 
'comments': 'n/a'}, 
{'name': 'Carol', 'fear': 'puppets', 'source': 'crystal ball', 
'robocop': 1, 'comments': 'Please take the puppets out of the 
break room.'}, 
{ name': 'Alex Murphy', 'fear': 'ED-209', 'source': 'money ， 
'robocop': 5, 'comments': 'Protect the innocent. Serve the public 
trust. Uphold the law.'}, 
] 

--SNip-- 


formData 列表 包含 4 个 字典 ， 针 对 4 个 不 同 的 名 字 。 每 个 字典 
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都 有 文本 字段 的 
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各 证 作 信人 响应 作为 值 。 最 后 一 点 准备 是 设置 pyautogui 的 PAUSE 变量 ， 在 每 次 函 




















数 调 用 后 等 待 半 秒 钟 。 在 程序 的 formData 赋值 语句 后 ， 


























pyautogui.PAUSE = 0.5 


第 3 步 : 开始 键入 数据 








for 循环 将 迭代 formData 列表 中 的 每 个 字 














， 将 字 








函数 ， 最 后 在 文本 输入 区 输入 。 
在 程序 中 添加 以 下 代码 : 


#! python3 
# formFiller.py - Automatically fills in the form. 











--SNip-- 


for person in formData: 
# Give the user a chance to kill the script. 


print('>>> 5 SECOND PAUSE TO LET USER PRESS CTRL-C <<<') 


























添加 下 面 的 代码 : 














中 的 值 传递 给 pyautogui 


0 time.sleep(5) 
# Wait until the form page has loaded. 

22 while not pyautogui.pixelMatchesColor(submitButton[0], submitButton[1], 
submitButtonColor): 


time.sleep(0.5) 


--SNip-- 


作为 一 个 小 的 安全 功能 ， 该 脚本 有 5 秒 暂 停 @。 如 果 发 现 程 序 在 做 一 些 预期 之 








外 的 事 ， 这 让 用 户 有 机 会 按 Cal-C (或 将 








FailSafeException 异常 )， 从 而 关闭 程序 。 然 后 程序 等 待 ， 直 到 Submit 按钮 的 颜 




















鼠标 移 到 屏幕 的 左上 角 ， 触 发 








Ey 























可 见 @， 这 让 程序 知道 ， 表 单 页 面 已 经 加 载 了 。 























submitButtonColor。 

















楚 了 坐标 和 颜色 信息 ， 并 将 它们 保存 在 submitButton 和 submitButtonColor 变量 中 。 要 i 
用 pixelMatchesColor0 ， 就 传递 坐标 submitButton[0] 和 submitButton[1]， 以 及 颜 


可 忆 一 下 ， 你 在 第 2 步 中 己 经 弄 } 








玉 


> 





2 








企 等 待 Submit 按钮 颜色 可 见 的 代码 之 后 ， 添 加 以 下 代码 ; 








#! python3 
# formFiller.py - Automatically fills in the form. 


--SNip-- 


0 print('Entering %s info...' % (person['name'])) 
[22 pyautogui.click(nameField[0], nameField[1]) 


# Fill out the Name field. 
© pyautogui.typewrite(person['name'] + '\t') 


# Fill out the Greatest Fear(s) field. 
[49 pyautogui.typewrite(person['fear'] + '\t') 


--SNip-- 
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Wand)， 并 按 Tab 键 @@。 包 
































建 的 值 是 


0D 果 'source' 
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'amulet'"， 模 拟 按 向 下 键 两 















































次 ， 


我 们 添加 了 偶尔 的 printO 调用 ， 在 终端 窗口 中 显示 程序 的 状态 ， 让 用 户 知道 进 
展 。@ 
既然 程序 知道 表格 已 经 加 载 ， 就 可 以 调用 click0， 点 击 Name 输入 框 @， 并 调 
j typewrite0， 输 入 person[name'] 中 的 字符 串 目 。 字 符 串 末尾 加 上 了 Yt 字符 ， 模 拟 
按 下 Tab 键 , 它 将 输入 焦点 转 问 下 一 个 输入 框 ,Greatest Fear(s)。 另 一 次 typewrite() 调 
] ， 将 在 这 个 输入 框 中 输入 person[fear] 中 的 字符 串 ， 然 后 用 Tab 跳 到 表格 的 下 一 
个 输入 柜 @ 
第 4 步 : 处 理 选 择 列 表 和 单 选 按钮 
“wizard powers” 问 题 的 下 拉 菜 单 和 RoboCop 字段 的 单 选 按钮 ， 处 理 起 来 比 文 
本 输入 框 需要 更 多 技巧 。 要 用 鼠标 点 选 这 些 选 项 ,你 必须 搞 清 楚 每 个 可 能 选项 的 x、 
y 坐 标 。 然 而 ， 用 箭头 键 来 选择 会 比较 容易 。 
在 程序 中 加 入 以 下 代码 : 
#! python3 
# formFiller.py - Automatically fills in the form. 
--SNip-- 
# Fill out the Source of Wizard Powers field. 
0 if person['source'] == 'wand': 
L229 pyautogui.typewrite(['down', '\t']) 
elif person['source'] == 'amulet': 
pyautogui.typewrite(['down', 'down', '\t']) 
elif person['source'] == 'crystal ball': 
pyautogui.typewrite(['down', 'down', 'down', '\t']) 
elif person['source'] == 'money ': 
pyautogui.typewrite(['down', 'down', 'down', 'down', '\t']) 
# Fill out the RoboCop field. 
© if person['robocop'] == 1: 
0 pyautogui.typewrite([' ', '\t']) 
elif person['robocop'] == 2: 
pyautogui.typewrite(['right', '\t']) 
elif person['robocop'] == 3: 
pyautogui.typewrite(['right', 'right', '\t']) 
elif person['robocop'] == 4: 
pyautogui.typewrite(['right', 'right', 'right', '\t']) 
elif person['robocop'] == 5: 
pyautogui.typewrite(['right', 'right', 'right', 'right', '\t']) 
--SNip-- 
在 下 拉 菜 单 获得 焦点 后 (回忆 一 下 ， 你 写 了 代码 ， 在 填充 Greatest Fear(s) 输 
入 框 后 模拟 了 按 Tab 键 )， 按 下 向 下 箭头 ， 就 会 移动 到 选择 列表 的 下 一 项 。 根 据 
person['source'] 中 的 值 ， 你 的 程序 应 该 发 出 几 次 向 下 按键 ， 然 后 再 切换 到 下 一 个 输 
入 区 。 如 果 这 个 用 户 词典 中 的 'source' 值 是 "wand' @，, 我 们 模拟 按 向 下 键 一 次 (选择 





并 按 
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Tab 键 。 对 其 他 可 能 的 值 也 是 类 似 。 




















RoboCop 问题 的 单 选 按钮 ， 可 以 用 向 右键 来 选择 。 或 者 ， 如 果 你 想 选 择 第 一 个 

















选项 目 ， 就 按 空 格 键 @。 


提交 表单 并 等 待 





可 以 用 函数 typewrite0 填写 备注 输入 框 , 将 person['comments'] 作为 参数 。 你 可 





以 另外 输入 \t， 将 焦点 移 到 下 一 个 输入 框 或 Submit 按钮 。 当 Submit 按钮 获得 焦点 


后 ， 调 用 pyautogui.press ('enter')， 模 拟 按 下 
程序 将 等 待 5 秒 ， 等 下 一 页 加 载 。 


个 新 的 、 全 空 的 表单 页 面 。 
submitAnotherLink 中 ， 所 以 将 这 些 坐 标 传递 给 pyautogui.click0， 点 击 这 个 链接 。 


一 个 人 的 信息 。 


























车 键 ， 提 交 表 单 。 在 提交 表单 之 后 ， 

















在 新 页 面 加 载 之 后 , 它 会 有 一 个 Submit another response 链接 , 让 浏览 器 转向 一 
在 第 二 步 ， 你 已 将 这 个 链接 的 坐标 作为 元 组 保存 在 









































新 的 表单 准备 好 后 ， 脚 本 的 外 层 for 循环 将 继续 下 一 次 迭代 ， 在 表单 中 输入 下 








添加 以 下 代码 ， 完 成 你 的 程序 : 


#! python3 
# formFiller.py - Automatically fills in the form. 


--SNip-- 





# Fill out the Additional Comments field. 
pyautogui.typewrite(person['comments'] + '\t') 


# Click Submit. 
pyautogui.press('enter') 


# Wait until form page has loaded. 
print('Clicked Submit.') 
time.sleep(5) 


# Click the Submit another response link. 
pyautogui.click(submitAnotherLink[0], submitAnotherLink[1]) 









































在 主 for 循环 完成 后 ， 程 序 应 该 已 经 插入 了 每 个 人 的 信息 。 在 这 个 例子 中 ， 只 
有 4 个 人 要 输入 。 但 如 果 有 4000 个 人 ， 那 么 编程 来 完成 这 个 任务 将 节省 大 量 的 输 
入 时 间 。 
小 结 











用 pyautogui 模块 实现 GUI 自动 化 ， 通 过 控制 键盘 和 上 鼠标 ， 让 你 与 计算 机 上 的 
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试 着 确保 它们 在 得 到 错误 指令 时 快速 崩 涯 。 崩 演 





















































程序 交互 。 虽 然 这 种 方式 相当 灵活 ， 可 以 做 任何 人 类 用 户 做 的 事情 ， 但 也 有 不 足 
之 处 ， 即 这 些 程序 对 它们 的 点 击 和 键入 是 相当 盲目 的 。 在 编写 GUI 自动 化 程序 时 ， 请 










































































民 烦 人 ,但 比 程序 继续 错误 要 好 得 多 。 


一 以 
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利用 pyautogui， 你 可 以 在 屏幕 上 移动 鼠标 ， 模 拟 鼠 标点 击 、 击 键 和 快捷 键 。 
pyautogui 模块 也 能 检查 屏幕 上 的 颜色 ， 让 GUI 自动 化 程序 对 屏幕 内 容 有 足够 的 了 
解 ， 知 道 它 是 否 有 偏差 。 甚 至 可 以 向 它 提 供 一 个 屏幕 快照 ， 让 它 找 出 你 希望 点 击 的 
区 域 坐 标 。 

可 以 组 合 使 用 所 有 这 些 pyautogui 功能 ， 在 计算 机 上 自动 化 各 种 无 脑 的 重复 任 
务 。 实 际 上 ， 看 着 鼠标 自己 移动 ， 看 着 文本 自动 出 现在 屏幕 上 ， 这 是 彻头彻尾 的 催 
卢 。 为 什么 不 用 节省 下 来 的 时 间 ， 舒 舒服 服 地 坐 着 ， 看 着 程序 为 你 工作 ?看 着 你 的 


聪明 才智 帮 你 省 去 无 聊 的 工作 ， 肯 定 会 让 你 感到 满意 。 







































































































































































18.13 习题 


如 何 触 发 pyautogui 的 失效 保护 来 停止 程序 ? 

什么 函数 返回 当前 的 分 辨 率 ? 

什么 函数 返回 鼠标 当前 位 置 的 坐标 ? 

pyautogui.moveTo() 和 pyautogui.moveRel() 函数 之 间 的 区 别 是 什么 ? 
什么 函数 用 于 拖 放 鼠标 
调用 什么 函数 将 蔡 你 键入 字符 串 "Hello world!"? 
如 何 模拟 按 下 向 左 键 这 样 的 特殊 键 ? 
如 何 将 当前 屏幕 的 内 容 保存 为 图 形 文件 并 命名 为 screenshot.png? 
什么 代码 能 够 设置 每 次 pyautogui 函数 调用 后 暂停 两 秒 钟 ? 
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18.14 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 内 容 。 





























18.14.1 看 起 来 很 必 
许多 即时 通信 程序 通过 一 段 时 间 鼠 标 不 动 〈 例 如 10 分 钟 )， 来 判断 你 空 亲 或 离 
开 了 计算 机 。 也 许 你 想 从 桌子 边 溜 走 一 段 时 间 ， 但 不 想 让 别人 看 到 你 的 即时 通信 软 
件 转 为 空闲 状态 。 请 编写 一 段 脚本 ， 每 隔 10 秒 钟 稍微 动 一 下 鼠标 。 这 种 移动 应 该 
相当 小 ， 以 便 在 脚本 运行 时 ， 如 果 你 需要 使 用 计算 机 ， 它 也 不 会 给 你 制造 麻烦 。 



































































































































18.14.2 ”即时 通信 机 器 人 

Google Talk、Skype、Yahoo Messenger、AIM 和 其 它 即时 通信 应 用 通常 使 用 专 
有 协议 , 让 其 他 人 很 难 通过 编写 Python 模块 与 这 些 程序 交互 。 但 即使 这 些 专 有 协议 ， 
bj 不 能 阻止 你 编写 GUI 自动 化 工具 。 
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Google Talk 应 用 有 一 个 搜索 条 ， 让 你 在 输入 朋友 列表 中 的 用 户 名 并 按 下 回 车 
时 ， 打 开 一 个 消息 窗口 。 键 盘 焦点 自动 移 到 那个 新 的 窗口 。 其 他 即时 通信 应 用 也 有 
类 似 的 方式 ， 来 打开 新 的 消息 窗口 。 请 编写 一 个 应 用 程序 ， 向 朋友 列表 中 选 定 的 一 
组 人 发 出 一 条 通知 消息 。 程 序 应 该 能 够 处 理 异常 情况 ， 比 如 朋友 离线 ， 聊 天 窗口 出 
现在 屏幕 上 不 同 的 位 置 ， 或 确认 对 话 框 打 断 输入 消息 。 程 序 必 须 使 用 屏幕 快照 ， 指 
导 它 的 GUI 交互 ， 并 在 虚拟 按键 发 送 之 前 采用 各 种 检测 方式 。 





























































































































































































































注意 可 能 需要 建立 一 些 假 的 测试 账户 ， 这 样 就 不 会 在 编写 这 个 程序 时 ， 不 小 心 打 
总 、 





18.14.3 ” 玩 游戏 机 器 人 指南 
有 一 个 很 不 错 的 指南 名 为 “How to Build a Python Bot That Can Play Web 
Games” 网 址 是 http://nostarch.com/automatestuff/。 这 份 指南 解释 了 如 何 用 be 
建 一 个 GUI 自动 化 程序 ， 玩 一 个 名 为 Sushi Go Round 的 Flash 游戏 。 这 个 游戏 需 
点 击 正确 的 成 分 按钮 ， 填 写 客户 的 寿司 订单 。 填 写 无 错 订单 越 快 ， 得 分 就 越 高 。 这 
个 任务 特别 适合 GUI 自动 化 程序 ， 因为 可 以 作 浆 得 到 高 分 ! 这 份 指南 包含 了 本 章 介 
绍 的 许多 主题 ， 也 涉及 PyAutoGUI 的 基本 图 像 识别 功能 







































































374 ”Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 


附录 A 
安装 第 三 方 模块 








除了 Python 自 带 的 标准 库 , 其 他 开发 者 写 了 一 些 自己 的 模 
块 ,进一步 扩展 了 Python 的 功能 。 安装 第 三 方 模块 的 主要 方法 
是 使 用 Python 的 pip 工具 。 这 个 工具 从 Python 软件 基金 会 的 网 
站 https://pypi.python.org/ 安 全 地 下 载 Python 模块 ， 并 安装 到 您 
的 计算 机 上 。PyPI 或 Python 包 索 引 , 就 像 是 Python 模块 的 免费 
以 用 程序 商店 。 















































































































































A.1 pip 工具 


pip 工具 的 可 执行 文件 在 Windows 上 称 为 pip， 在 OS X 和 Linux 上 称 为 pip3。 在 
Windows 上 ，pip 位 于 C:\Python34\Scripts\pip.exe。 在 OS X 上 ， 它 位 于 /Library/ 
Frameworks/Python.framework/Versions/3.4/bin/pip3。 在 Linux 上 ， 它 位 于 /usr/bin/pip3。 

虽然 在 Windows 和 OS X 上 pip 会 随 Python3.4 自动 安装 , 但 在 Linux 上 ， 必 须 
单独 安装 。 要 在 Ubuntu 或 Debian Linux 上 安装 pip3， 就 打开 一 个 新 的 终端 窗口 ， 
输入 get install python3-pip。 要 在 Fedora Linux 上 安装 pip3, 就 在 终端 窗口 输入 install 






















































































python3 -pip。 为 了 安装 这 个 软件 ， 需 要 输入 计算 机 的 管理 员 密 码 。 








A.2 安装 第 三 方 模块 

pip 工具 需要 在 命令 行 中 运行 : 向 它 传 入 install 命令 , 跟 上 想 要 安装 的 模块 名 称 。 
例如 ， 在 Windows 上 ， 会 输入 pip install ModuleName， 其 中 ModuleName 是 模块 的 名 
称 。 在 OSX 和 Linux， 必 须 加 sudo 前 级 来 运行 pip3， 授 予 管理 权限 来 安装 该 模块 。 
需要 输入 sudo pip3 install ModuleName。 

如 果 你 已 经 安装 了 模块 , 但 想 升 级 到 PyPI 上 提供 的 最 新 版 本 , 就 运行 pip install 
-U ModuleName 〈 或 在 OS X 和 Linux 上 运行 pip3 install -U ModuleName )。 

安装 模块 后 ， 可 以 在 交互 式 环境 中 运行 import ModuleName， 测 试 安装 是 否 成 
功 。 如 果 未 显示 错误 信息 ， 就 可 以 认为 该 模块 已 经 成 功 安装 。 

运行 下 面 列 出 的 命令 , 你 可 以 安装 本 书 中 介绍 的 所 有 模块 (请 记 住 ， 如果 在 OS 
X 或 Linux 上 ， 用 pip3 蔡 代 pip)。 

e pipinstall send2trash 



























































































































































e pipinstall requests 

e pipinstall beautifulsoup4 

e pip install selenium 

e pip install openpyxl 

e pip install PyPDF2 

e。 pip install python-docx (安装 python-docx， 而 不 是 docx ) 





e pip install imapclient 

e pip install pyzmail 

e pip install twilio 

e pip install pillow 

。 pip install pyobjc-core( 仅 在 OS X 上 ) 
。 pip install pyobjc《〈 仅 在 OSX 上 ) 

e。 pip install python3-xlib 〈 仅 在 Linux 上 ) 
e pip install pyautogui 














注意 对 于 OSX 用户 : pyobjc 模块 需要 20 分 钟 或 更 长 的 时 间 来 安装 ， 因 此 ， 如 果 它 
需要 一 段 时 间 , 不 要 惊慌 。 也 应 该 先 安装 pyobjc 核心 模块 , 这 将 减少 整体 安装 时 间 。 
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如 果 你 在 IDLE 的 文件 编辑 器 中 打开 了 一 个 程序 ， 运 行 它 
很 简单 ， 按 FS 或 选择 RunP> Run Module 菜单 项 。 这 是 在 编程 
时 运行 程序 的 最 简单 方法 ， 但 打开 IDLE 来 运行 已 完成 的 程序 
可 能 有 点 累 。 执 行 Python 脚本 还 有 更 方便 的 方法 。 




































































所 有 Python 程序 的 第 一 行 应 该 是 #! 行 ， 它 告诉 计算 机 你 想 让 Python 来 执行 这 个 
程序 。 该 行 以 #! 开 始 ， 但 剩 下 的 内 容 取 诀 于 操作 系统 。 
。 在 Windows 上 ， 第 一 行 是 #! python3。 
。 在 OSX， 第 一 行 是 #! /usr/bin/env python3 。 
。 在 Linux 上 ， 第 一 行 是 # /usr/bin/python3。 
没有 #! 行 ， 你 也 能 从 IDLE 运行 Python 脚本 ， 但 从 命令 行 运行 它们 就 需要 这 
一 行 。 























B.2 在 Windows 上 运行 Python 程序 


在 Windows 上 ，Python3.4 的 解释 程序 位 于 C:\Python34\python.exe。 或 者 , 方 
便 的 py.exe 程序 将 读 取 .py 文件 源 代码 顶部 的 检 行 , 并 针对 该 脚本 运行 相应 的 Python 
版 本 。 如 果 计 算 机 上 安装 了 多 个 版 本 的 Python，py.exe 程序 确保 运行 正确 版 本 的 
Python 程序 。 

为 了 方便 运行 你 的 Python 程序 ， 可 以 创建 一 个 .BAT 批 处 理 文件 ， 用 py.exe 来 
运行 Python 程序 。 要 创建 一 个 批 处 理 文件 ， 就 创建 一 个 新 的 文本 文件 ， 包含 一 行内 
容 ， 类 似 下 面 这 样 : 


@py.exe C:\path\to\your\pythonScript.py %* 


用 你 自己 的 程序 的 绝对 路 径 蔡 换 该 路 径 ， 将 这 个 文件 以 .bat 文件 扩展 名 保存 〈 例 
如 ，PpythonScriptbat)。 这 个 处 理 文件 将 使 你 不 必 在 每 次 运行 时 ， 都 输入 Python 程序 完 
整 的 绝对 路 径 。 我 建议 将 所 有 的 批 处 理 文件 和 .py 文件 放 在 一 个 文件 夹 中 ， 如 
C:\MyPythonScripts 或 C:\Users\YourName\PythonScripts。 

在 Windows 上 ，C:NMYyYPythonScripts 文件 夹 应 人 系统 路 径 中 ,这 样 就 可 以 从 
Run 对 话 框 中 运行 其 中 的 批 处 理 文件 。 要 做 到 这 一 点 ， 请 修改 PATH 环境 变量 。 单 击 
“开始 ”按钮 ， 并 输入 “Edit environment variables your account〈 编 辑 账户 的 环境 变 
量 )” 在 你 开始 输入 时 ， 该 选项 应 自动 完成 。 弹 出 的 环境 变量 窗口 如 图 B-1 所 示 。 






















































































































































































User variables for Al 
Variable Value 
PATH C:\Users\AIl\AppData\Roaming\npm;C:\... 
TEMP W%USERPROFILE%\AppData\Local\Temp 
TMP 9%USERPROFILE%\WAppData\LocalTemp 
New... | | Edit... | | Delete 
System variables 
Variable Value 一 
Path C:\Program Files (x86)Nava\jdk1.7.0_5... 国 
PATHEXT .COM;.EXE;.BAT;.CMD;.VBS;.VBE;.JS7.… Ee 
PP22_EXE4] JA... C:\Program Files (x86)UJava\jre7 
PROCESSOR_AR... AMD64 五 
New... || Edt.. ||[ Delete 

















图 B-1 Windows 的 环境 变量 窗口 


378 “Python 编程 快速 上 手 一 一 让 繁琐 工作 自动 化 





从 系统 变量 中 ， 选 择 Path 变量 ， 然 后 单 击 “ 编 辑 ”。 在 “变量 值 ”文本 字段 中 ， 
追加 一 个 分 号 , 键入 C:IMyPythonScripts, 然后 单 击 “ 确 定 ” 现在 你 只 需 按 下 Win-R 
并 输入 脚本 的 名 称 ， 就 能 运行 C:\MyPythonScripts 文件 夹 中 的 Python 脚本 。 例 如 ， 
运行 pythonScript， 将 运行 pythonScriptbat， 这 使 你 不 必 从 Run 对 话 框 运行 整个 命 
令 pyexe C:\MyPythonScripts\pythonSceript.py。 





























B.3 在 OSX 和 Linux 上 运行 Python 程序 


在 OSX 上 , 选择 Applications UtilitiesP> Terminal 将 弹出 一 个 终端 窗口 。 终端 
窗口 让 你 用 纯 文 本 在 计算 机 上 输入 命令 ， 而 不 是 通过 图 形 界面 点 击 。 要 在 Ubuntu 
Linux 上 打开 终端 窗口 ， 就 按 Win (或 Super) 键 ， 调 出 Dash 并 输入 Terminal。 

终端 窗口 将 从 你 的 用 户 账 户 的 主 文件 夹 开始 。 如 果 我 的 用 户 名 是 sweigart, OS X 
上 主 文件 夹 在 /Users/asweigart，Linux 上 在 /home/asweigart。 波 浪 纯 字 符 (~) 是 主 
文件 夹 的 快捷 方式 ， 所 以 你 可 以 输入 cd ~ 切换 到 主 文件 夹 。 也 可 以 使 用 cd 命令 ， 
将 当前 工作 目录 改变 到 任何 其 他 目录 。 在 OS X 和 Linux 上 ，pwd 命令 将 打印 当前 
工作 目录 。 

为 了 运行 Python 程序 , 将 你 的 .py 文件 保存 到 你 的 主 文件 夹 。 然后， 更 改 .py 文件 
的 权限 ， 运 行 chmod +x pythonScript.py， 使 之 成 为 可 执行 文件 。 文 件 权 限 超出 了 本 
书 的 范围 , 但 如 果 你 想 在 终端 窗口 运行 程序 ， 就 需要 对 Python 文件 运行 此 命令 。 这 
样 做 之 后 ， 当 你 打开 一 个 终端 窗口 ， 输 入 ./pythonScriptpy， 就 能 运行 该 脚本 。 脚 本 
顶部 的 可 行 会 告诉 操作 系统 ， 在 哪里 可 以 找到 Python 解释 器 。 














































































































































































































B.4 运行 Python 程序 时 禁用 断言 


你 可 以 禁用 Python 程序 中 的 assert 语句 ， 从 而 稍稍 提高 性 能 。 从 终端 窗口 运行 
Python 时 ， 在 python 或 python3 之 后 和 .py 文件 之 前 加 上 -O 开关 。 这 将 运行 程序 的 
优化 版 本 ， 跳 过 断言 检查 。 
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附录 C 
习题 答案 








本 附录 包含 每 章 末 习题 的 答案 。 我 强烈 建议 你 花 时 间 解 答 
这 些 习题 。 编 程 不 只 是 记 住 语 法 和 函数 名 列表 。 像 学 习 外 语 一 
样 ， 练 习 越 多 ， 收 获 就 越 大 。 有 许多 网 站 也 包含 编程 习题 。 你 
可 以 在 http://nostarch.com/automatestuff/ 找 到 这 些 网 站 的 列表 。 















































.操作 符 是 +、-、* 和 /。 值 是 hello、-88.8 和 5。 
. 字符 串 是 'spam'， 变 量 是 spam。 字 符 串 总 是 以 引号 开始 和 结束 。 
. 本 章 介 绍 的 3 种 数据 类 型 是 整数 、 浮 点 数 和 字符 串 。 
. 表达 式 是 值 和 操作 符 的 结合 。 所 有 表达 式 都 求 值 为 ( 即 归 约 为 一 个 值 。 
表达 式 求 值 为 一 个 值 。 语 句 不 是 这 样 。 

.bacon 变量 被 设置 为 20。 表 达 式 bacon + 1 并 没有 对 bacon 
赋值 需要 一 个 赋值 语句 : bacon =bacon + 1)。 

7. 两 个 表达 式 都 求 值 为 字符 串 'spamspamspam '。 





















































1 
2 
3 
4 
5. 
6 





Hm 


新 赋值 (重新 
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.该 表达 


第 2 鞋 


1. True 和 False， 使 








时 名 不 能 





2. and、or 和 not。 





以 数字 开始 。 

. 人 float( 和 str0 函数 将 返回 
太 式 导致 错误 是 因 
他 字  ， 正确 的 方式 是 





























大 写 的 T 和 下 ， 








3. True and True 是 True。 


True and False 是 False。 





False and True 是 False。 





False and False 是 False。 


True or True 是 True。 





True or False 是 True。 


False or True 是 True。 





False or False 是 False。 





not True 是 False。 





not False 是 True。 




















4. False 
False 
True 
False 
False 
True 
Sy Is < REP 
6. == 是 等 于 操作 符 ， 
将 值 保存 在 变量 中 。 
7. 条 件 是 一 个 表达 式 ， 它 用 于 控制 流 语 
8. 3 个 语句 块 是 让 语 
) 


print('eggs' 
if spam > 5: 








传 入 值 的 整 型 、 




















为 ，99 是 一 个 整数 ， 只 有 字符 上 


Thave eaten '+ str(99) + ' burritos.'。 














他 字母 是 小 写 。 











浮 点 型 和 字符 串 版 本 。 








+ 操作 符 与 其 


它 比 较 两 个 值 ， 求 值 为 一 个 布尔 值 ， 而 = 是 赋值 操作 符 ， 








print('bacon') 


else: 


print('ham’') 


print('spam’ 


) 


9. 代码 : 
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名 中 ， 求 值 为 一 个 布尔 值 。 
句 中 的 全 部 内 容 ， 以 及 print (bacon') 和 print Cham') i 


这 两 行 。 


if spam == 1: 
print('Hello') 

elif spam == 2: 
print('Howdy') 


else: 


print('Greetings!') 


10. 按 Ctrl-C 来 停止 陷 在 无 限 循环 ! 
11. break 语句 将 执行 移 H 





循环 的 开始 。 


12. 它们 都 是 做 同样 
10，range (0，10) 明确 














的 程序 。 

















的 事 


























迭代 让 变量 增加 1。 





























循环 ， 接 着 循环 之 后 执行 。continue 语句 将 执行 移 到 



































。range (10) 调用 产生 的 范围 








是 从 0 直到 (但 不 包括 ) 



































外 告诉 循环 从 0 开始 ，range (0，10，1) 明确 告诉 循环 每 次 


























































































































































































































13. 代码 : 
for i in range(1, 11): 
print(i) 
以 及 : 
i=1 
while i <= 10: 
print(i) 
i=i+1 
14. 该 函数 的 调用 方式 是 spam.bacon()。 
第 3 章 
1. 子 数 减少 了 重复 的 代码 。 这 让 程序 更 短 ， 更 容易 阅读 ， 更 容易 修改 。 
2. 函数 中 的 代码 在 函数 被 调用 时 执行 ， 而 不 是 在 函数 定义 时 。 
3. def 语句 定义 了 〔 即 创建 了 ) 一 个 函数 。 
4. 函数 包含 def 语句 和 在 def 子 句 中 的 代码 。 函数 调用 让 程序 执行 转 到 函数 内 ， 
函数 调用 求 值 为 该 函数 的 返回 值 。 
5. 在 调用 一 个 函数 时 ， 创 建 了 一 个 全 局 函数 和 一 个 局 部 作用 域 。 
6. 函数 返回 时 ， 局 部 作用 域 被 销毁 ， 其 中 所 有 的 变量 都 被 遗忘 了 。 
7. 返回 值 是 函数 调用 求 值 的 结果 。 像 所 有 值 一 样 ， 返 回 值 可 以 作为 表达 式 的 
一 部 分 。 
8 如果 函 数 没 有 return 语句 ， 它 的 返回 值 就 是 None。 
9. global 语句 强制 函数 中 的 一 个 变量 引用 该 全 局 变量 。 


10. None 的 数据 类 型 是 NoneType。 


11. import 语句 导入 了 areallyourpetsnamederic 模块 (顺便 说 一 句 ， 这 不 























是 一 个 





附录 C “习题 答案 383 


小 
小 
攻 


第 5 


真正 Python 模块 )。 

















.该 函数 可 以 通过 spam.bacon0 调用 
13. 将 可 能 导致 错误 的 代码 行 放 在 一 个 try 子 铂 









































14. 可 能 导致 错误 的 代码 放 在 try 子 句 中 。 人 生生 误 时 要 执行 的 代码 放 在 except 


子 句 中 。 

















1. 空 的 列表 值 ， 它 是 一 个 列表 ， 不 包含 任何 列表 项 。 这 类 似 于 "是 空 的 字符 串 值 。 


2. spam[2] = 'hello'( 洲 


























FE 意 ， 列 表 中 的 第 3 个 值 下 标 是 2， 因 为 第 1 个 值 下 标 是 0。 ) 


























3. 'd'〔 注 意 '3'* 2 是 字符 串 33'， 它 被 传 入 int0， 然 后 再 除 以 11。 这 最 终 求 值 
为 3。 在 使 用 值 的 地 方 ， 都 可 以 使 用 表达 式 )。 
.4 (负数 下 标 从 末尾 倒数 )。 


























4 
5. ['a', b] 
6. 1 
7 
8 


. [3.14, 'cat', 11, 'cat', 





























True, 99] 


. [3.14, 11, cat, True] 
. 列表 连接 的 操作 符 是 +， 复 制 的 操作 符 是 * (这 和 字符 串 - 样 )。 
10. append() 只 会 将 值 添加 在 列表 末尾 ， 而 insertO 可 以 将 值 添加 在 列表 的 任何 





位 置 。 









































11. del 语句 和 remove() 列表 方法 是 从 列表 中 删除 值 的 两 种 方法 。 
12. 列表 和 字符 串 都 可 以 传 入 len()， 都 有 下 标 和 切片 ， 用 于 for 循环 ， 连 接 或 


复制 ， 并 与 in 和 not in 操作 符 一 起 使 












































13. 列表 是 可 以 修改 的 ， 它们 可 以 添加 值 、 删除 值 和 修改 值 。 元 组 是 不 可 修改 
的 , 它们 根本 不 能 改变 。 而 且 , 元 组 使 用 的 是 括号 (和 ), 而 列表 使 用 的 是 方 括号 [和 ]。 

14. (42, ) 〈 末 尾 的 逗号 是 必须 的 )。 

15. 分 别 使 用 tupleO 和 listO 函数 。 

16. 它们 包含 对 列表 值 的 引用 。 

17. copy.copy0 函数 将 浅 拷贝 列表 ， 而 copydeepcopy0 函数 将 深 拷 贝 列 表 。 也 











1. 两 个 花 括 号 : {} 
2. {'foo0': 42} 















































就 是 说 ， 只 有 copy.deepcopy0 会 复制 列表 内 的 所 有 列表 。 
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| 





3 
4 
9。 
6 


. 'Cat 


有 一 个 值 'cat' 对 应 于 spam 中 的 某 个 键 。 
了 



































. 保存 在 字典 中 的 项 是 无 序 的 ， 而 列表 中 的 项 是 有 序 的 。 
.会 得 到 KeyError 错误 。 


没有 区 别 。in 操作 符 检 查 一 个 值 是 不 是 字典 中 的 一 个 键 。 
































in spam 检查 字典 中 是 不 是 有 一 个 'cat 键 而 'cat in spam.values0 检查 是 





























spam.setdefault('color', 'black') 


8. pprint.pprint() 


~ 


9. 分别 用 rjust0、ljustO 和 center0 字符 串 方 法 。 


仆 nn 上 wwDP 一 




















， 转 义 字符 表示 字符 串 中 的 一 些 字符 ， 这 些 字符 用 别 的 方式 很 难 在 代码 中 打出 来 。 
































tn 是 换行 符 ，\t 是 制 表 符 。 

N\ 转 义 字 符 表示 一 个 反 斜 杠 。 

Howls 中 的 单 引 号 没有 问题 ， 因 为 你 用 了 双 引 号 来 标识 字符 串 的 开始 和 结束 。 
. 多 行 字符 串 让 你 在 字符 串 中 使 用 换行 符 ， 而 不 必用 转 义 字符 。 
这 些 表 达 式 求 值 为 以 下 值 : 



























































e 
'Hello' 
'Hello' 


To world! 


.这 些 表达 式 求 值 为 以 下 值 : 


'HELLO' 
True 
hello' 





.这 些 表达 式 求 值 为 以 下 值 : 


[Remember ,Temember ,the, ‘fifth', 'of', 'November.'] 


'There-can-be-only-one.' 






































10. 1stripO 和 rstrip0 方法 分 别 从 字符 串 的 左边 和 右边 移 除 空白 字符 。 











. Ie.compile() 函数 返回 Regex 对 象 。 























. 使) 








原始 字符 串 是 为 了 让 反 斜 杠 不 必 转 义 。 














search() 方法 返回 Match 对 象 。 
group() 方法 返回 匹配 文本 的 字符 串 。 
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5. 分 组 0 是 整个 匹配 ， 分 组 1 包含 第 一 组 括号 ， 分 组 2 包含 第 二 组 括号 。 
6. 句号 和 括号 可 以 用 反 和 斜 杠 转 义 : \、\〈 和 \)。 

7. 如 果 正 则 表达 式 没 有 分 组 ， 就 返回 字符 串 的 列表 。 如 果 正 则 表达 式 有 分 组 ， 
回 字 符 串 的 元 组 的 列表 。 
| 和 







































































8. | 字符 表示 匹配 两 个 组 中 的 “任何 一 个 ”。 

9. ? 字符 可 以 表示 “匹配 前 面 分 组 0 次 或 二 次 ” 或 用 于 表示 非 贪心 匹配 。 
10. + 匹配 1 次 或 多 次 。* 匹 配 0 次 或 多 次 。 

11. {3} 匹 配 前 面 分 组 的 精确 3 次 实例 。{3, 5} 匹配 3 至 5 次 实例 。 

12. 缩写 字符 分 类 \d、\w 和 \s 分 别 匹配 一 个 数字 、 单 词 或 空白 字符 。 

13. 缩写 字符 分 类 \D、\W 和 \S 分 别 匹 配 一 个 字符 ， 它 不 是 数字 、 单 词 或 空 F 




















































































































14. 将 rel 或 re.IGNORECASE 作为 第 二 个 参数 传 入 re.compile0， 让 匹配 不 区 
分 大 小 写 。 

15. 字符 .通常 匹配 任何 字符 ， 换 行 符 除外 。 如 果 将 re.DOTALL 作为 第 二 个 参 
数 传 入 re.compile0， 那 么 点 也 会 匹配 换行 符 。 

16. .*# 执 行 贪心 匹配 ，.*? 执 行 非 贪心 匹配 。 

17. [0-9a-z] 或 [a-z0-9] 

18. X drummers, X pipers, five rings, X hens' 

19. re.VERBOSE 参数 允许 为 传 入 re.compile0 的 字符 串 添加 空格 和 注释 。 

20. re.compile (r^\d{1,3}(,{3})*$') 将 创建 这 个 正则 表达 式 ， 但 其 他 正则 表达 
式 字符 串 可 以 生成 类 似 的 正则 表达 式 。 

21. re.compile(r[A-Zl][a-z|*\sNakamoto') 

22 . re.compile(r'(AlicelBob|CaroD\s(eatslpetslthrows)\ s(apples|catslbaseballs)\\.,, 
re.IGNORECASE) 

























































































































































































1. 相对 路 径 是 相对 于 当前 工作 目录 。 

2. 绝对 路 径 从 根 文件 夹 开始 ， 诸 如 /或 C:\。 

3. os.getcwd0 函数 返回 当前 工作 目录 。os.chdir0 函数 改变 当前 工作 目录 。 

4. 文件 夹 . 是 当前 文件 夹 ，. 是 父 文件 夹 。 

5. Ci\bacon\eggs 是 目录 名 ， 而 Spam.txt 是 基本 名 称 。 

6. 字符 串 YT' 对 应 读 模 式 ，'w' 对 应 写 模式 ，'a' 对 应 添加 模式 。 

7. 已 有 的 文件 用 写 模 式 打 开 ， 原 有 内 容 会 被 删除 并 完全 覆 写 。 

8. read() 方法 将 文件 的 全 部 内 容 作 为 一 个 字符 串 返 回 。readlines0 返回 一 个 字 
符 串 列表 ， 其 中 每 个 字符 串 是 文件 内 容 中 的 一 行 。 
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小 








9. shelf 值 类 似 字 典 值 ， 它 有 键 和 值 ， 以 及 keys0 和 values0 方法 ， 类 似 于 同名 
的 字典 方法 。 





1. shutil.copy0 函数 将 找 贝 一 个 文件 ， 而 shutil.copytree0 将 拷贝 整个 文件 夹 ， 
以 及 它 的 所 有 内 容 。 

2. shutilLmove0 函数 用 于 重 命名 文件 ， 以 及 文件 移动 。 

3. send2trash 函数 将 一 个 文件 或 文件 夹 移 到 回收 站 ， 而 shutil 函数 将 永久 地 删 
除 文件 和 文件 夹 。 

4. zipfile.ZipFile0 函数 等 价 于 open() 函数 ， 第 一 个 参数 是 文件 名 ， 第 二 个 参数 
是 打开 ZIP 文件 的 模式 ( 读 、 写 或 添加 )。 
























































1. assert(spam >= 10, The spam variable is less than 10.') 

2.assert(eggs.lower() != bacon.lower(), The eggs and bacon variables are the same!') 
或 assert(eggs.upper() != bacon.upper(), 'The eggs and bacon variables are the same!') 

3. assert(False, 'This assertion always triggers.') 

4. 为 了 能 调用 logging.debug0， 必 须 在 程序 开始 时 加 入 以 下 两 行 
import logging 


logging.basicConfig(level=logging.DEBUG, format=' %(asctime)s - 
%(levelname)s - %(message)s’') 


5. 为 了 能 利用 logging.debug0 将 日 志 消 息 发 送 到 文件 programLog.txt 中 ， 必 须 
在 程序 开始 时 加 入 以 下 两 行 
import logging 


>>> logging.basicConfig(filename='programLog.txt', level=logging .DEBUG, 
format=' %(asctime)s - %(levelname)s - %(message)s') 















































6. DEBUG、 INFO、 WARNING、ERROR 和 CRITICAL 

7. logging.disable (logging.CRITICAL) 

8. 可 以 禁用 日 志 消息 ， 不 必 删 除 日 志 函 数 调 用 。 可 以 选择 禁用 低级 别 日 志 消 
息 。 可 以 创建 日 志 消息 。 志 消息 提供 了 时 间 蕉 。 

9. Step 按 扭 让 调试 器 进入 函数 调用 。Over 按钮 将 快速 执行 函数 调用 ， 不 会 单 
步 进入 其 中 。Onut 按钮 将 快速 执行 余下 的 代码 ， 直 到 走出 当前 所 处 的 函数 。 

10. 在 点 击 Go 后 ， 调 试 器 将 在 程序 末尾 或 断 点 处 停止。 

11， 断 点 设 在 一 行 代码 上 ， 在 程序 执 到 到 达 该 行 时 ， 它 导致 调试 器 暂停 。 
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12. 要 在 IDLE 中 设置 断 点 ， 就 在 代码 行 上 单 击 右键 ， 从 弹出 菜单 中 选择 Set 
Breakpoint。 


第 11 章 


1. webbrowser 模块 有 一 个 open0 方法 ， 它 启动 web 浏览 器 ， 打 开 指 定 的 URL， 就 
这 样 。Requests 模块 可 以 从 网 上 下 载 文件 和 页 面 。BeautifulSoup 模块 解析 HTML。 
最 后 ，selenium 模块 可 以 启动 并 控制 浏览 器 。 

2. requests.get() 函数 返回 一 个 Response 对 象 ， 它 有 一 个 text 属性 ， 包 含 下 载 
内 容 的 字符 串 。 

3. 如 果 下 载 有 问题 ，raise_for_status() 方法 将 抛 出 异常 ， 如 果 下 载 成 功 ， 什 么 也 不 做 。 

4. Response 对 象 的 status_code 属性 包含 了 HTTP 状态 码 。 

5. 以 wb'， 即 “ 写 二 进 制 ”模式 在 你 的 计算 机 上 打开 新 文件 后 ， 利 用 一 个 for 
循环 迭代 遍历 Response 对 象 的 iter_content(0) 方法 , 将 各 段 写 入 该 文件 。 下 面 是 例子 : 
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saveFile = open('filename.html', wb ') 
for chunk in res.iter content(100000): 
saveFile.write(chunk) 











6. F12 在 Chrome 中 打开 开发 者 工具 。 按 下 Ctrl-Shift-C (在 Windows 和 Linux 上 ) 
或 殷 -Option-C (在 OSX)， 在 Firefox 中 打开 开发 者 工具 。 
7. 右键 点 击 页 面 上 的 元 素 ， 并 从 菜单 中 选择 Inspect Element。 















































8.，#main' 
9. 'highlight 
10. "div div' 


11. mbutton[value='"favorite"] 

12. spam.getText() 

13. linkElem.attrs 

14. selenium 模块 是 通过 from selenium import webdriver 导入 的 。 

15. find_element_* 方法 将 第 一 个 匹配 的 元 素 返 回 , 作为 一 个 WebElement 对 象 。 
find_elements_* 方法 返回 所 有 匹配 的 元 素 ， 作 为 一 个 WebElement 对 象 列表 。 

16. click0 和 send_keys0 方法 分 别 模拟 鼠标 点 击 和 键盘 按键 。 

17. 对 表单 中 的 任意 对 象 调用 submit( 方法 将 提交 该 表单 。 

18. forward()、back() 和 refresh() 等 WebDriver 对 象 方法 模拟 了 这 些 浏览 器 按钮 。 






























































第 12 章 
1. openpyxl.load_workbook() 函数 返回 一 个 Workbook 对 象 。 
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调 
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get_sheet_names() 方法 返回 一 个 Worksheet 对 象 。 














j wb.get_sheet_by_name('Sheet1')。 

















4 wb.get_active_sheet()。 

sheet['C5'].value 或 sheet.cell(row=5, column=3).value 

sheet['C5'] = 'Hello' 或 sheet.cell(row=5, column=3).value = 'Hello' 
cell.row 和 cell.column。 

它们 分 别 返 回 


openpyxl.cell.column_index_from_string(M') 





























最 高 列 和 最 高 行 的 整数 值 。 


10. openpyxl.cell.get_column_letter(14) 
11. sheet['A1':F1'] 


12. wb.save(example.xlsx') 


13. 公式 的 设置 和 值 一 样 。 将 单元 格 的 value 属性 设置 为 公式 文本 的 字符 串 。 


Ud 











记 住 公式 以 = 号 开始 。 

14. 在 调用 load_workbook0O 时 ， 传 入 True 作为 data_only 关键 字 人 参数。 

15. sheet.row_dimensions[S].height = 100 

16. sheet.column_dimensions['C'].hidden = True 

17. OpenPyXL 2.0.5 不 会 加 载 冻 结 窗 格 、 打 印 标题 、 图 像 或 图 表 。 

18. 冻结 窗 格 就 是 总 是 会 出 现在 屏幕 上 的 行 和 列 。 它 们 作为 表 头 是 很 有 用 的 。 

19. openpyxl.charts.Reference()、openpyxl.charts.SeriesO0、openpyxl.charts. BarChart()、 
chartObj.append(seriesObj) 和 add_chart() 。 





调 
在 
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.File 对象 由 open0 返回 。 
. 对 PdfFileReader() 用 读 二 进 制 (rb')， 对 PdfFileWriter() 用 写 二 进 制 ('wb')。 

















































































































二 二 
getPage(4) 将 返回 第 5 页 的 Page 对 象 ， 因 为 0 页 就 是 第 1 页 。 














了 











dfFileReader 对 象 中 ，numPages 变量 保存 了 页 数 的 整数 。 























4 decrypt(' swordfish')。 
.fotateClockwise() 和 rotateCounterClockwise0 方法 。 旋 转 度数 作为 整数 参数 传 入 。 


. docx.Document('demo.docx') 


8. 文档 包含 多 个 段落 。 段 落 从 一 个 新 行 开 始 ， 包 含 多 个 Run 对 象 。Run 对 象 
是 段落 内 连续 的 字符 分 组 。 


9. 使 























4 doc.paragraphs 。 





10. Run 对 象 有 这 些 变量 〈 不 是 Paragraph )。 
11. True 总 是 让 Run 对 象 成 为 粗 体 ，False 让 它 总 是 不 是 粗 体 ， 不 论 样 式 的 粗 
体 设置 是 什么 。None 让 Run 对 象 使 用 该 样式 的 粗 体 设置 。 
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12. 调用 docx.DocumentO 函数 。 
13. doc.add_paragraph('Hello there!) 
14. 整数 0、1、2、3 和 4。 











1. 在 Excel 中 ， 电 子 表格 的 值 可 以 是 字符 串 以 外 的 数据 类 型 ， 单 元 格 可 以 有 不 
同 的 字体 、 大 小 或 颜色 设置 ， 单 元 格 可 以 有 不 同 的 宽度 和 高 度 ， 相 邻 的 单元 格 可 以 
合并 ， 可 以 嵌入 网 像 和 图 表 。 

2. 传 入 一 个 File 对 象 ， 通 过 调用 open0 获得 。 

3. 对 于 Reader 对 象 ，File 对 象 需要 以 读 二 进 制 模式 (rb') 打开 ， 对 于 Writer 
对 象 ， 需 要 以 写 二 进 制 模式 〈'wb') 打开 。 

4. writerow() 方法 。 

5. delimiter 参数 改变 了 分 隔 一 行 中 单元 格 所 用 的 字符 串 。lineterminator 参数 改 
变 了 分 隔行 的 字符 串 。 

6. json.loads() 








































































































7. json.dumps() 
































.许多 日 期 和 时 间 程 序 使 用 的 一 个 参考 时 刻 。 该 时 刻 是 1970 年 1 月 1 日 ,UTC。 

















1 

2. time.time() 
3. time.sleep(5) 
4. 返回 与 传 入 参数 最 近 的 整数 。 例 如 ，round (2.4) 返回 2。 

5. datetime 对 象 表示 一 个 特定 的 时 刻 。timedelta 对 象 表示 一 段 时 间 。 
6 

gl 

8 

9 





. threadObj = threading.Thread(target=spam) 

. threadObj.start() 

. 确保 在 一 个 线程 中 执行 的 代码 不 会 和 另 一 个 线程 中 的 代码 读 写 相同 的 变量 。 
。 subprocess.Popen(c:\Windows\System32\\calc.exe') 


i 





























四 








. 分 别 是 SMTP 和 IMAP。 

. smtplib.SMTP()、smtpObj.ehlo()、smptObj.starttlsO) 和 smtpObj.login() 。 

. imapclient.IMAPClientO and imapObj.loginO 

.IMAP 关键 字 的 字符 串 列表 ， 例 如 BEFORE <date>'、'FROM <string>' 或 'SEEN'。 


人 已 一 
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5. 将 变量 imaplib、MAXLINE 赋值 为 一 个 大 整数 ， 例 如 10000000。 
6. pyzmail 模块 读 取 下 载 的 邮件 
7. 你 需要 Twilio 账户 的 SID 号 、 认 证 标识 号 ， 以 及 你 的 Twilio 电话 号 码 。 





o 























1. RGBA 值 是 4 个 整数 的 元 组 ， 每 个 整数 的 范围 是 0 至 255。4 个 整数 对 应 于 
颜色 的 红 、 绿 、 蓝 和 alpha 值 〈 透 明度 )。 

2. 函数 调用 ImageColor.getcolor (CornflowerBlue'，RGBA') 将 返回 (100， 
149，237，255)， 该 颜色 的 RGBA 值 。 

3. 和 拖 形 元 组 是 4 个 整数 的 元 组 : 分 别 是 左边 的 x 坐标 ， 顶 边 的 y 坐标 ， 宽 度 
和 高 度 。 

4. Image.open ('zophie.png') 

5. imageObj.size 是 两 个 整数 的 元 组 ， 宽 度 和 高 度 。 

6. imageObj.crop((0, 50, 50, 50))。 请 注意 ， 传 入 crop0 的 是 一 个 矩形 元 组 ， 不 
是 4 个 独立 的 整数 参数 。 

7. 调用 Image 对 象 的 imageObj.save Cnew_filename.png') 方法 。 

8. ImageDraw 模块 包含 在 图 像 上 绘画 的 代码 。 

9. ImageDraw 对 象 有 一 些 绘制 形状 的 方法 ， 例 如 pointO 、lineO 或 rectangleO。 
这 些 对 象 是 将 Image 对 象 传 入 ImageDraw.Draw0 函数 后 返回 的 。 





























































































































1. 将 鼠标 移 到 屏幕 的 左上 角 ， 即 坐标 〈0，0)。 

2. pyautogui.size() 返回 2 个 整数 的 元 组 ， 表 示 屏 幕 的 宽 和 高 。 

3. pyautogui.position() 返回 2 个 整数 的 元 组 ， 表 示 鼠 标的 x 和 y 坐标 。 

4. moveTo0 函数 将 鼠标 移 到 屏幕 的 绝对 坐标 处 ， 而 moveRel0 函数 相对 于 鼠 
标的 当前 位 置 来 移动 鼠标 。 

5. pyautogui.dragTo() 和 pyautogui.dragRel()。 




















6. pyautogui.typewrite(Hello world!') 

7. 要 么 向 pyautogui.typewriteO 输入 键盘 键 字符 串 的 列表 例如 'left' )， 要 么 问 
pyautogui.press() 输入 单个 键盘 键 字符 串 。 

8. pyautogui.screenshot('screenshot.png') 

9. pyautogui.PAUSE =2 
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如 果 你 曾经 伦 几 个 小 时 重 命名 文件 或 更 新 数 百 个 电子 表格 的 单元 格 ， 就 知道 这 样 的 任务 有 多 繁琐 了 。 但 是 ， 如 果 你 
可 以 让 计算 机 蔡 你 完成 呢 ? 















































在 本 书 中 ， 你 将 学 习 利用 Python 编程 ， 在 几 分 钟 内 完成 手工 需要 几 小 时 的 工作 ， 而 事先 却 无 需 具 备 编程 经 验 。 一 
有 旦 掌握 了 编程 的 基础 知识 ， 你 就 可 以 毫 不 费力 地 创建 Python 程序， 完成 高 效 的 自动 化 工作 ， 包 括 : 













































































e@ 在 一 个 文件 或 多 个 文件 中 搜索 文本 ; 

@ 人 创建、 更新、 移动 和 重 命名 文件 和 文件 夹 ; 

e@ 搜索 网 页 和 下 载 的 在 线 内 容 ; 

e@e 在 任意 大 小 的 Excel 电 子 表格 中 更 新 和 格式 化 数据 ; 

e@ 拆 分、 合并 PDF 文件 ， 以 及 如 何 加 水 印 和 加 密 ; 

e@ 发 送 提醒 邮件 和 文本 通知 ; 

@ 填写 在 线 表格 。 

本 书 一 步 一 步 地 引导 你 完成 每 个 程序 ， 每 章 末 尾 的 实践 项 目 启发 你 来 改进 这 些 程序 ， 并 用 你 的 新 技能 来 让 类 似 的 任 
务 自动 化 。 你 不 用 再 浪费 时 间 去 做 任何 可 以 自动 化 的 工作 。 即 使 你 从 未 写 过 一 行 代码 , 也 可 以 让 计算 机 来 做 繁重 的 工作 ， 
本 书 告诉 你 如 何 做 。 












































































































































作者 简介 
Al Sweigart 是 一 名 软件 开发 者 ， 还 教 小 孩 和 成 人 编程 。 他 为 初学 者 写 了 几 本 Python 书籍 ， 包 括 《Python 密码 学 
程 》《 Python 游戏 编程 快速 上 手 》 和 《Python 和 Pygame 游戏 开发 指南 》。 


ISBN 978-7-115-42269-9 
吧 异步 社区 www.epubit.com.cn 
ua 新 浪 微 博 @ 人 邮 异步 社区 
人 


























六 








投稿 /反馈 邮箱 contact@epubit.com.cn 


里 美术 编辑 : 董 志 桢 


分 类 建议 : 计算 机 /程序 设计 /Python 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 





